JP2018055622A

JP2018055622A - 情報処理装置及びプログラム

Info

Publication number: JP2018055622A
Application number: JP2016194393A
Authority: JP
Inventors: 松本　征二; Seiji Matsumoto; 征二松本
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2018-04-05

Abstract

【課題】多様な文章表現について言語処理を行うことができる情報処理装置等を提供する。【解決手段】情報処理装置１は、文章の入力を受け付ける受付部と、複数の文例を記憶する記憶部を参照し、前記受付部が受け付けた前記文章との類似度を計算する計算部と、前記計算部により計算した各類似度の最も高い類似度に応じた出力処理を行う出力部とを備えることを特徴とする。【選択図】図１

Description

本発明は、情報処理装置及びプログラムに関する。

人工知能の分野において、コンピュータに自然言語を学習させる機械学習の研究、開発が進んでいる。コンピュータに自然言語を学習させることで、例えば人間からの質問文をコンピュータに解析させ、自動で回答文を生成させるなど、様々な応用が考えられる。

特許文献１では、言い換え関係にある文章の集合を取得する言い換え関係集合取得装置が開示されている。特許文献１では、大規模なコーパスから取得した文章を、文章中の単語、文章の構文パターンなどに応じて分類してデータベースに記憶することで、言い換え関係にある文章の集合を学習する。

特開２０１２−２７５６７号公報

自然言語では、同様の意味を持つ文章であっても、文章に含まれる単語等の要素を別の表現に言い換え可能な場合がある。例えば「ホテルへの行き方は？」という文章は、「ホテルは何を使って行くのがよろしいですか？」、「ホテルへはどうやって行くのですか？」などの文章に言い換えることができる。人間は、文章の表現が多少変化した場合であっても、文章が持つ意味を経験的に理解することで対応できる。しかしコンピュータは、文章中の要素が変化した場合、すなわち文章の表現が変わった場合、この文章を同様の意味を持つ文章として捉えることが難しく、対応が困難である。現状では、様々な表現を想定した言語学習用の訓練データを人手で作成し、コンピュータに学習させている状況が実情である。

特許文献１では、コンピュータに大規模なコーパスのデータを与えることが前提であり、このコーパスは人間の手作業で作成されたものである。従って、特許文献１に係る発明は、上記の問題を解決するものとはいえない。

本発明は斯かる事情によりなされたものであって、その目的とするところは、多様な文章表現について言語処理を行うことができる情報処理装置等を提供することにある。

本発明に係る情報処理装置は、文章の入力を受け付ける受付部と、複数の文例を記憶する記憶部を参照し、前記受付部が受け付けた前記文章との類似度を計算する計算部と、前記計算部により計算した各類似度の最も高い類似度に応じた出力処理を行う出力部とを備えることを特徴とする。

本発明に係る情報処理装置は、前記出力部は、前記文例から疑問文を生成し、前記疑問文が前記文章と置換可能か否かを問い合わせることを特徴とする。

本発明に係る情報処理装置は、前記記憶部は、前記疑問文を生成するための定型文を記憶していることを特徴とする。

本発明に係る情報処理装置は、前記出力部からの問い合わせに対する応答を受け付ける第２受付部を備え、前記文章と置換可能でない旨の応答を前記第２受付部が受け付けた場合、前記受付部は、前記文章の再入力を受け付けることを特徴とする。

本発明に係る情報処理装置は、前記文章と置換可能である旨の応答を前記第２受付部が受け付けた場合、前記記憶部は、前記文章を前記文例と対応付けて記憶することを特徴とする。

本発明に係る情報処理装置は、再入力された前記文章と置換可能である旨の応答を前記第２受付部が受け付けた場合、前記記憶部は、再入力前に前記受付部が受け付けた前記文章を記憶することを特徴とする。

本発明に係る情報処理装置は、前記受付部が前記文章を受け付けた受付回数に応じて、前記文章の信頼度を計算する信頼度計算部を備えることを特徴とする。

本発明に係る情報処理装置は、前記計算部は、前記信頼度計算部が計算した前記信頼度に基づき前記文章と前記文例との類似度を計算し、前記計算部が計算した各類似度の大小に応じて、前記信頼度を更新する更新部を備えることを特徴とする。

本発明に係る情報処理装置は、前記記憶部は、前記文例に含まれる要素に応じて、前記文例をカテゴリー別に記憶し、前記受付部が受け付けた文章に含まれる要素に応じて、該文章のカテゴリーを判別する判別部を備え、前記計算部は、前記判別部が判別した前記文章のカテゴリーと同一のカテゴリーに属する前記文例について類似度を計算することを特徴とする。

本発明に係るプログラムは、文章の入力を受け付け、受け付けた文章を外部装置に送信し、送信した前記文章と、記憶部に記憶されている文例との類似度に応じて前記外部装置から送信される問い合わせを出力し、出力した前記問い合わせに対する応答を受け付け、受け付けた応答を前記外部装置に送信する処理をコンピュータに実行させることを特徴とする。

本発明によれば、多様な文章表現について言語処理を行うことができる。

情報処理システムの一例を示す模式図である。サーバの構成例を示すブロック図である。端末の構成例を示すブロック図である。文例ＤＢのレコードレイアウトの一例を示す説明図である。文章の収集処理の概要について説明するための説明図である。収集翻訳文の収集処理について説明するための説明図である。新たな文章の追加取得処理について説明するための説明図である。端末からの応答結果に応じた文章取得処理について説明するための説明図である。端末からの応答結果に応じた文章取得処理について説明するための説明図である。文章収集処理の処理手順の一例を示すフローチャートである。文章の追加取得処理の処理手順の一例を示すフローチャートである。実施の形態２に係る文例ＤＢのレコードレイアウトの一例を示す説明図である。実施の形態２に係る信頼度の計算処理について説明するための説明図である。実施の形態２に係る情報処理システムが実行する処理手順の一例を示すフローチャートである。実施の形態３に係る文章収集処理について説明するための説明図である。実施の形態３に係る情報処理システムが実行する処理手順の一例を示すフローチャートである。実施の形態４に係る類似度の計算処理を説明するための説明図である。実施の形態４に係る情報処理システムが実行する処理手順の一例を示すフローチャートである。上述した形態のサーバの動作を示す機能ブロック図である。

以下、本発明をその実施の形態を示す図面に基づいて詳述する。
（実施の形態１）
図１は、情報処理システムの一例を示す模式図である。本実施の形態では、多様な文章表現に対応した言語学習を行うべく、インターネットを介して多数の文章を収集すると共に、ユーザにより入力された文章をデータベースに追加する情報処理装置１について説明する。情報処理装置１、端末装置２、２、２…は、ネットワークＮを介して相互に通信接続されている。ネットワークＮは、インターネットである。

情報処理装置１は、種々の情報処理を行う情報処理装置であり、例えばサーバコンピュータ、パーソナルコンピュータ等である。本実施の形態において情報処理装置１はサーバコンピュータであるものとし、以下では簡潔のためサーバ１と読み替える。サーバ１は、同様の意味を持つ多数の文章を収集することで、多様な文章表現について言語学習を行う。具体的には、サーバ１は第１言語により表された原文、及び当該原文の対訳であり、第２言語により表された翻訳文を利用し、第１言語及び第２言語の双方において同様の意味を持つ別表現の文章データを収集してデータベースを構築する。さらにサーバ１は、端末装置２を介してユーザにより入力された文章を収集済みの文章とマッチングすることで、ユーザにより入力された文章を新たな文例としてデータベースに追加する処理を行う。

端末装置２は、ユーザが所有する情報処理端末であり、例えばスマートフォン、パーソナルコンピュータ、タブレット端末等である。以下の説明では、端末装置２がスマートフォンであるものとし、簡潔のため端末２と読み替える。例えば端末２は、サーバ１と連携し、ユーザとの対話に係るプログラムを実行する。具体的に端末２は、Ｓｉｒｉ（登録商標）のように、ユーザが発声した文章の音声入力を受け付け、受け付けた文章に対する回答の生成をサーバ１に要求する。そして端末２は、サーバ１が生成した回答を音声出力する。例えば端末２において「このホテルへの行き方を教えていただけますか？」との文章が音声入力された場合、サーバ１は学習済みの文章データを参照して当該文章を解析し、ホテルまでの道順、地図等の情報を示す回答を生成し、端末２に出力する。このように、端末２はサーバ１が機械的に学習した文章データを利用し、ユーザに対して対話形式のプログラムを提供する。

管理者端末３は、サーバ１の管理者が所有する端末装置であり、例えばパーソナルコンピュータ等である。管理者端末３は、例えばＬＡＮ（Local Area Network）を介してサーバ１に通信接続されている。管理者端末３は、管理者による操作に基づきサーバ１と情報の送受信を行う。

図２は、サーバ１の構成例を示すブロック図である。サーバ１は、制御部１１、記憶部１２、通信部１３、大容量記憶装置１４を含む。
制御部１１はＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）等の演算処理装置を含み、記憶部１２に記憶されたプログラムＰ１を読み出して実行することにより、サーバ１に係る種々の情報処理、制御処理等を行う。記憶部１２はＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等のメモリ素子を含み、制御部１１が処理を実行するために必要なプログラムＰ１又はデータ等を記憶している。また、記憶部１２は、制御部１１が演算処理を実行するために必要なデータを一時的に記憶する。さらに記憶部１２は、後述する問い合わせに係る疑問文を生成するための定型文を記憶している。通信部１３は通信に関する処理を行うための処理回路等を含み、ネットワークＮを介して端末２等と情報の送受信を行う。

大容量記憶装置１４は、例えばハードディスク等を含む大容量の記憶装置である。大容量記憶装置１４は、文例ＤＢ１４１等を記憶している。文例ＤＢ１４１は、ネットワークＮを介して収集した第１言語及び第２言語の文章を記憶している。なお、本実施の形態において記憶部１２及び大容量記憶装置１４は一体の記憶装置として構成されていてもよい。また、大容量記憶装置１４は複数の記憶装置により構成されていてもよい。また、大容量記憶装置１４はサーバ１に接続された外部記憶装置であってもよい。
また、本実施の形態においてサーバ１は上記の構成に限られず、例えば操作入力を受け付ける入力部、サーバ１に係る情報を表示する表示部、可搬型記憶媒体に記憶された情報を読み取る読取部等を含んでもよい。

図３は、端末２の構成例を示すブロック図である。端末２は、制御部２１、記憶部２２、通信部２３、表示部２４、入力部２５、音声出力部２６、音声入力部２７を含む。
制御部２１はＣＰＵ、ＭＰＵ等の演算処理装置を含み、記憶部２２に記憶されたプログラムＰ２を読み出して実行することにより、端末２に係る種々の情報処理、制御処理等を行う。記憶部２２はＲＡＭ、ＲＯＭ等のメモリ素子を含み、制御部２１が処理を実行するために必要なプログラムＰ２又はデータ等を記憶している。また、記憶部２２は、制御部２１が演算処理を実行するために必要なデータ等を一時的に記憶する。通信部２３はアンテナ及び通信処理回路等を含み、ネットワークを介してサーバ１等と情報の送受信を行う。表示部２４は液晶ディスプレイ又は有機ＥＬ（Electro Luminescence）ディスプレイ等の画面を有し、制御部２１から与えられた画像を表示する。入力部２５は表示部２４に設けられたタッチパネル又は押下式のボタン等であり、来場者による操作入力を受け付ける。入力部２５は、来場者によりなされた操作内容を制御部２１に通知する。音声出力部２６及び音声入力部２７は夫々、音声の出力を行うスピーカ、音声の入力を受け付けるマイクである。
なお、本実施の形態において端末２は上記の構成に限られず、例えば可搬型記憶媒体に記憶された情報を読み取る読取部等を含んでもよい。

図４は、文例ＤＢ１４１のレコードレイアウトの一例を示す説明図である。文例ＤＢ１４１は、カテゴリー列、第１言語列、第２言語列を含む。カテゴリー列は、第１言語列及び第２言語列に記憶される文章のカテゴリーを記憶している。文章のカテゴリーは、例えば文章に含まれる単語、文節等の要素により判別される。例えば文章に名詞「ホテル」が含まれる場合、キーワード列には当該名詞を示す「ホテル」が記憶される。また、例えば文章中に含まれる文節「教えていただけますか」の動詞、助動詞等の要素、又は文章全体の構文構造などに応じて、種類列には「質問」、「要望」等の文章の種類が記憶される。また、例えば文章中に含まれる名詞「ホテル」に応じて、ジャンル列には「宿泊」が記憶される。なお、上記では第１言語（日本語）についてのみ例示してあるが、第２言語（英語）についても同様にカテゴリーを付してもよい。第１言語列は、カテゴリーと対応付けて、当該カテゴリーに属する複数の第１言語の文章を記憶している。第２言語列は、カテゴリー及び第１言語の文章と対応付けて、第１言語の文章に対応する複数の第２言語の文章、すなわち第１言語の文章を第２言語に翻訳した翻訳文を記憶している。

図５は、文章の収集処理の概要について説明するための説明図である。以下ではサーバ１が実行する処理の概要について説明する。なお、以下の説明では便宜上、サーバ１の処理主体は制御部１１であるものとし、端末２の処理主体は制御部２１であるものとして説明する。
制御部１１は、第１言語の原文、及び当該原文の対訳である翻訳文を外部から受け付け、文例ＤＢ１４１に記憶する。例えば制御部１１は、管理者端末３で入力された原文及び翻訳文を受け付ける。原文及び翻訳文は、第１言語及び第２言語において同様の意味を持つ対訳文であり、互いに対となる文章である。本実施の形態において制御部１１は、予め与えられた第２言語の翻訳文を用いて、当該翻訳文を第１言語に逆翻訳した文章の収集を行う。なお、以下の説明では、第１言語により表された原文と同様の意味を持つ別表現の文章であって、サーバ１が収集する第１言語の文章を「収集原文」と呼ぶ。

制御部１１は、文例ＤＢ１４１に記憶した翻訳文に基づき、ネットワークＮを介した検索処理を行い、第１言語の原文に対応する収集原文を収集する。具体的に制御部１１は、第２言語に係る翻訳文に基づいてインターネット検索を行い、検索されたウェブページのテキストデータ（外部データ）から、原文と共通の要素を有する収集原文を収集する。例えば図４に示すように、翻訳の原言語（第１言語）が日本語であり、翻訳の目的言語（第２言語）が英語である場合を考える。この場合、制御部１１は汎用の検索エンジンを利用してインターネット上のウェブサイトにアクセスし、日本語で表現された文章を抽出する。例えば制御部１１は、英語の翻訳文を検索キーとして、当該翻訳文を含むウェブページの検索要求を検索エンジンに送信する。制御部１１は検索要求に対して検索エンジンから出力される検索結果を参照し、検索上位である複数のウェブサイトのＵＲＬ情報を取得する。

制御部１１は、検索されたウェブサイトにアクセスし、英語の翻訳文を含むウェブページ内から、日本語の原文と共通の要素を有する日本語の文章を抽出する。例えば制御部１１は、原文に含まれる名詞をキーワードとして特定する。図４の例では、制御部１１は原文に含まれる名詞「ホテル」を特定する。制御部１１は、当該名詞「ホテル」を含む日本語の文章をウェブページから抽出する。また、例えば制御部１１は、原文に含まれる動詞、助動詞等、又は原文の構文構造などから、原文が質問文であることを特定する。制御部１１は、原文と同様に質問文となっている日本語の文章をウェブページから抽出する。

制御部１１は、検索上位の各ウェブページについて同様の処理を実行し、日本語の文章を抽出していく。これにより、制御部１１は英語の翻訳文に対応する複数の日本語の文章、すなわち収集原文を収集する。収集された収集原文は、同一の英語の翻訳文を検索キーとして収集されたものである。従って、収集された収集原文は、日本語の原文と同様の意味を持つ文章であることが推測される。従って、制御部１１は英語（第２言語）の翻訳文に基づき日本語（第１言語）の収集原文を収集することで、日本語の原文と同様の意味を持つ文章を収集することができる。

図６は、収集翻訳文の収集処理について説明するための説明図である。制御部１１は、英語（第２言語）の翻訳文を日本語（第１言語）に逆翻訳した収集原文を収集するだけでなく、日本語の原文または収集原文を英語に翻訳した第２言語の文章を収集する。なお、以下の説明では、第１言語の原文または収集原文を基に収集する翻訳文を「収集翻訳文」と呼ぶ。例えば制御部１１は、原文及び収集原文（日本語の文章）から、一の文章を選択する。制御部１１は、当該文章を検索キーとして、上記と同様の処理を行う。すなわち制御部１１は、日本語の文章を含むウェブページを検索する。制御部１１は、検索されたウェブページから、当初に受け付けた英語の翻訳文と共通の要素を有する収集翻訳文を抽出する。図５に示す例では、制御部１１は英語の翻訳文と同様に名詞「hotel」を含み、質問文となっている英語の文章を抽出する。制御部１１は、検索された各ページの文書について、日本語の原文に対応する英語の収集翻訳文を抽出していく。上記で選択した一の文章について収集処理が完了した場合、制御部１１は、検索キーである日本語の文章、すなわち原文を入れ替え、さらに収集翻訳文を収集する。これにより、制御部１１は第２言語（英語）の翻訳文に基づき第１言語（日本語）の収集原文の別表現を収集するだけでなく、原文の別表現も収集することができる。

収集翻訳文に係る収集処理が完了した場合、制御部１１は、収集した収集翻訳文のうち、当初に受け付けた第２言語の翻訳文と一致しない文章があるか否かを判定する。すなわち制御部１１は、収集した複数の収集翻訳文夫々について、翻訳文と一致するか否かを判定していく。一致しない文章があると判定した場合、制御部１１は、一致しないと判定された収集翻訳文に基づいて再度、日本語及び英語の文章を収集する。これにより、制御部１１は収集原文及び収集翻訳文の収集を繰り返す。例えば制御部１１は、翻訳文と不一致の収集翻訳文がなくなるまで処理を繰り返し、別表現に係る文章を取得する。
なお、制御部１１は、翻訳文及び収集翻訳文が完全に一致する場合だけでなく、例えば文章中の一部の単語のみが異なる場合のように、翻訳文及び収集翻訳文に含まれる要素が所定割合以上で重複する場合を含めて、翻訳文及び収集翻訳文が一致すると判定してもよい。

制御部１１は、収集した第１言語及び第２言語の文章を互いに対応付けて、文例として文例ＤＢ１４１に記憶する。例えば制御部１１は、収集した文章を、キーワード、種類、ジャンル等に応じて定められるカテゴリー別に記憶する。以上より、制御部１１は第１言語及び第２言語の対訳文に基づき別表現の文章を収集することで、多様な表現について文章データを格納したコーパスを構築する。

なお、上記でサーバ１は、管理者端末３を介して手動入力により原文及び翻訳文を受け付けることとしたが、本実施の形態はこれに限るものではない。例えばサーバ１は、既存のコーパスに係るデータを事前にインストールしておき、当該コーパスから文章を読み出すことで、原文及び翻訳文を受け付けてもよい。これにより、サーバ１は既存のコーパスに含まれる文章をさらに別表現で表した文章を収集し、文章データを拡充することができる。

また、上記でサーバ１は、２つの言語間の対訳文を収集したが、本実施の形態はこれに限定されるものではなく、３以上の言語間の対訳文を収集してもよい。例えばサーバ１は、英語、日本語、中国語の夫々について原文を受け付け、英語の原文から日本語の文章を、日本語の文章から中国語の文章を、中国語の文章から英語の文章を収集する。このように、サーバ１による収集処理の対象言語は２言語に限られない。

図７は、新たな文章の追加取得処理について説明するための説明図である。サーバ１は、上記のようにネットワークＮを介して文章収集を行うだけでなく、端末２を介してユーザにより入力される文章を新たな文例として取得し、文例ＤＢ１４１に追加する処理を行う。例えば端末２の制御部２１は、Ｓｉｒｉ等のような対話プログラムを実行する。すなわち制御部２１は、ユーザから発話等による文章の入力を受け付け、サーバ１に転送する。なお、以下の説明では便宜上、端末２において入力された文章を「入力文」という。サーバ１の制御部１１は、文例ＤＢ１４１を参照して入力文を解析し、ユーザの発話に対する回答を生成して端末２に出力する。本実施の形態において、制御部１１は当該入力文が文例ＤＢ１４１に記憶されている文例のいずれにも類似しない場合、入力文を新たな文例として文例ＤＢ１４１に追加する。

図７では、情報処理システムが日本語に係る対話プログラムを実行する場合を示す。この場合、まず端末２の制御部２１は、日本語による文章の入力を受け付ける。例えば制御部２１は、音声入力部２７を介して文章の音声入力を受け付ける。なお、制御部２１は音声入力ではなく、入力部２５を介したテキスト入力により文章を受け付けてもよい。制御部２１は、入力された文章を音声認識により認識し、認識結果に係るデータをサーバ１に送信する。

サーバ１の制御部１１は、当該データを端末２から受信することで、端末２を介した文章の入力を受け付ける。制御部１１は、受け付けた文章に含まれる要素に応じて、当該文章のカテゴリーを判別する。すなわち制御部１１は、上述の如く、文章中の単語、文節等の要素に応じて、文章に含まれるキーワード、ジャンル等を判別する。図７に示す例の場合、制御部１１は文章に含まれる名詞「ホテル」を判別し、文章のキーワード「ホテル」、文章のジャンル「宿泊」を判別する。また、例えば制御部１１は、文章中の動詞、動名詞等の要素、又は文章に含まれる各要素の順序、すなわち構文構造などに応じて、文章の種類を判別する。図７に示す例の場合、制御部１１は文章中における動詞、動名詞等の内容、各単語の順序などに応じて、文章が質問文であることを判別する。制御部１１は、判別したキーワード、ジャンル、種類等を総合して、文章のカテゴリーを判別する。なお、文章のカテゴリーに係る上記の分類方法は一例であって、本実施の形態はこれに限定されるものではない。

制御部１１は、判別したカテゴリーと同一カテゴリーに属する文例を、文例ＤＢ１４１から抽出する。すなわち制御部１１は、キーワード、ジャンル、種類等が共通する文例を文例ＤＢ１４１から読み出す。

制御部１１は、端末２において入力された入力文と、上記で抽出した各文例との類似度を計算する。例えば制御部１１は、コサイン類似度に係る推定法を用いて文章の類似度を計算する。具体的に制御部１１は、入力文と、文例ＤＢ１４１から抽出した文例とを、形態素解析により最小単位（例えば単語毎）の要素成分に分割する。制御部１１は、文章中における各要素成分の有無に応じて、各文章をベクトル化する。例えば図７に示すように、「このホテルへの行き方は？」と「このホテルへの行き方を教えて頂けますか？」とを比較する場合、要素成分は「この」、「ホテル」、「への」、「行き方」、「は」、「を」、「教えて」「頂けますか」の、２つの文に含まれる全ての要素（８語）になる。制御部１１は、各要素成分の有無に応じて、各文章のベクトル値Ａ、Ｂを割り出す。すなわち制御部１１は、入力文「このホテルへの行き方は？」には「この」、「ホテル」、「への」、「行き方」、「は」の５語の要素成分が含まれる一方、「を」、「教えて」「頂けますか」の３語の要素成分は含まれないことから、ベクトル値Ａ＝（１１１１１０００）を割り出す。また、制御部１１は、文例「このホテルへの行き方を教えて頂けますか？」には「この」、「ホテル」、「への」、「行き方」、「を」、「教えて」「頂けますか」の７語の要素成分が含まれる一方、「は」の１語の要素成分は含まれないことから、ベクトル値Ｂ＝（１１１１０１１１）を割り出す。制御部１１は、ベクトルＡ、Ｂの内積を算出することで、類似度を計算する。

制御部１１は、計算した各類似度の最も高い類似度に応じた処理を行う。すなわち制御部１１は、入力文と最も類似する文例に基づき、ユーザとの対話に係るプログラムを実行する。

例えば制御部１１は、各文例について計算した各類似度について、最も高い類似度が所定の閾値以上であるか否かを判定する。閾値以上であると判定した場合、例えば制御部１１は、入力文と最も類似度が高い文例に基づいて入力文を解析し、自動的に回答を生成して端末２に出力する。例えば上記のように、端末２において「このホテルへの行き方を教えていただけますか？」との文章が音声入力された場合、制御部１１は、当該入力文のキーワード、種類、ジャンル等のカテゴリーを判別することで、ユーザが発話した内容を推定する。上記の場合、キーワードが「ホテル」及び「行き方」であり、文章の種類が「質問文」であること等から、制御部１１はホテルまでの道順、地図等の情報を示す音声、画像等の回答データを生成し、端末２に出力する。

類似度が閾値未満であると判定した場合、すなわち入力文と同一又は類似する文例が文例ＤＢ１４１に記憶されていない場合、制御部１１は、入力文を新たな文例として文例ＤＢ１４１に追加処理を行う。すなわち、入力文と同一又は類似する文例が文例ＤＢ１４１に記憶されていないことから、未収集の新たな文例を取得する機会であるとして、制御部１１は、当該入力文について言語学習を行う。

図８及び図９は、端末２からの応答結果に応じた文章取得処理について説明するための説明図である。制御部１１は、上記の入力文が文例と置換可能か否かをユーザに問い合わせ、問い合わせに対するユーザからの応答結果に応じて、入力文を新たな文例として文例ＤＢ１４１に記憶する。具体的に制御部１１は、入力文との類似度が最も高い文例から疑問文を生成し、疑問文が入力文と置換可能か否かの問い合わせを端末２に出力する。例えば制御部１１は、上述の如く、記憶部１２に疑問文生成用の定型文を記憶しておく。制御部１１は記憶部１２から定型文を読み出し、最も類似度が高い文例を定型文に当てはめて疑問文を生成し、端末２に出力する。なお、定型文は記憶部１２ではなく、大容量記憶装置１４に記憶されていてもよい。制御部１１は、端末２において疑問文に係る音声データを生成し、端末２に出力する。音声データを受信した場合、端末２の制御部２１は、音声出力部２６より疑問文を音声出力する。例えば図８に示すように、制御部２１は「今の発言は〜ということですか？」との音声を出力する。なお、制御部２１は音声出力ではなく、表示部２４における画像表示により疑問文を出力してもよい。

制御部２１は、問い合わせに対するユーザからの応答の入力を受け付ける。例えば制御部２１は、音声入力部２７を介して「はい」又は「いいえ」などの音声入力を受け付ける。なお、制御部２１は入力部２５を介した操作入力により応答を受け付けてもよい。制御部２１は、入力内容に応じて、置換可能か否かを示す応答信号を生成し、サーバ１に送信する。

サーバ１の制御部１１は、端末２から送信された応答信号を受信することで、置換可能か否かを示す応答を受け付ける。制御部１１は応答信号を参照し、疑問文が入力文と置換可能か否かを判定する。例えば図８に示すように、疑問文が入力文と置換可能であると判定した場合、制御部１１は、疑問文の基となった文例と対応付けて入力文を新たに文例ＤＢ１４１に記憶する。すなわち制御部１１は、上記で判別したカテゴリーに分類して入力文を文例ＤＢ１４１に追加する。

図９に移って、疑問文が入力文と置換可能でないと判定した場合、制御部１１は、文章の再入力を受け付ける。例えば制御部１１は、文章の再入力を要求する催促文を生成し、端末２に送信する。例えば制御部１１は、上記の疑問文と同様に、催促文に係る定型文を記憶部１２に記憶しておき、催促文に係る音声データを生成して端末２に送信する。催促文に係る音声データを受信した場合、端末２の制御部２１は、文章の再入力を促すべく、「別の言い方で仰ってください」などの音声を音声出力部２６より出力する。そして制御部２１は、入力文を言い換えた別文章の入力を受け付ける。別文章が入力された場合、サーバ１及び端末２は上記と同様の処理を繰り返す。すなわち、端末２の制御部２１は新たな入力文をサーバ１に送信し、サーバ１の制御部１１は当該入力文と既存の文例との類似度を計算する。再入力された文章について計算した類似度も閾値未満である場合、制御部１１は置換可能か否かの問合せを再度行い、置換可能である場合は文例ＤＢ１４１に記憶し、置換可能でない場合は再入力を促す。以上より、制御部１１はユーザにより入力される文章を新たな文例として取得し、より多様な文章表現を学習することができる。

なお、上記で制御部１１は、置換可能でない入力文については文例ＤＢ１４１に追加しないこととしたが、置換可能でない入力文も文例ＤＢ１４１に追加してもよい。具体的に制御部１１は、上述の如く、疑問文が入力文と置換可能でない旨の応答を受け付けた場合、文章の再入力を促す。ここで制御部１１は、再入力された文章について再度問い合わせを行い、再入力された文章が置換可能である旨の応答を受け付けた場合、再入力前に入力された文章、すなわち元の入力文を併せて文例ＤＢ１４１に記憶する。言い換えると、制御部１１は、一旦入力が失敗した文章も文例ＤＢ１４１に追加する。これにより、制御部１１はより多様な文章表現について学習することができる。

図１０は、文章収集処理の処理手順の一例を示すフローチャートである。図１０に基づいて、サーバ１の制御部１１が実行する文例収集処理について説明する。
制御部１１は、第１言語の原文、及び当該原文の対訳である第２言語の翻訳文を文例ＤＢ１４１に記憶する（ステップＳ１１）。例えば制御部１１は、管理者端末３を介して第１言語及び第２言語の原文及び翻訳文の入力を受け付ける。制御部１１は、受け付けた原文及び翻訳文を互いに対応付けて文例ＤＢ１４１に記憶する。制御部１１は、文例ＤＢ１４１に記憶した翻訳文に基づき、ネットワークＮを介して第１言語の原文に対応する収集原文を収集する（ステップＳ１２）。例えば制御部１１は、翻訳文を検索キーとしてウェブページの検索要求を検索エンジンに対して行い、翻訳文を含むウェブページのＵＲＬ情報を取得する。制御部１１は、検索上位のウェブページにアクセスし、ステップＳ１１で翻訳文の対訳として文例ＤＢ１４１に記憶した原文と共通の要素を有する収集原文をページ内から抽出する。制御部１１は、検索上位の各ページにおいて同様に文章を抽出していくことで、ステップＳ１１で記憶した原文と同様の意味を持つ収集原文を収集する。ここで収集原文は１文だけに限らず、自己の有する原文と異なる表現となる文章全てを収集する。

制御部１１は、ステップＳ１１で記憶した原文、またはステップＳ１２で収集した収集原文に基づき、当該文章に対応する収集翻訳文を収集する（ステップＳ１３）。すなわち制御部１１は、ステップＳ１１で記憶した原文、またはステップＳ１２で収集した複数の収集原文のいずれかを検索キーとして、ステップＳ１２と同様の収集処理を行う。制御部１１は原文または収集原文のいずれかに基づきウェブページを検索し、検索された各ページから第２言語の翻訳文に対応する収集翻訳文を収集する。なお、収集翻訳文は、１つの原文に対して異なる表現が見つかる限り全ての文章を収集する。これにより、制御部１１は第２言語で表現された一の翻訳文に対応する複数の収集翻訳文を収集する。制御部１１は、原文及び収集原文全てについて、ステップＳ１３に係る収集処理を行ったか否かを判定する（ステップＳ１４）。全てではないと判定した場合（Ｓ１４：ＮＯ）、制御部１１は処理をステップＳ１３に戻す。これにより、制御部１１は検索キーである文章を入れ替え、収集翻訳文の収集を再度行う。制御部１１は、原文及び収集原文全てについて収集翻訳文の収集を行う。

原文及び収集原文全てについて処理を行ったと判定した場合（Ｓ１４：ＹＥＳ）、制御部１１は、ステップＳ１３で収集した収集翻訳文のうち、ステップＳ１１で記憶した第２言語の翻訳文と一致しない文章があるか否かを判定する（ステップＳ１５）。すなわち制御部１１は、収集した複数の収集翻訳文夫々について、当初の翻訳文と一致するか否かを判定していく。翻訳文と一致しない文章があると判定した場合（Ｓ１５：ＹＥＳ）、制御部１１は、ステップＳ１２に処理を戻す。この場合、制御部１１は一致しないと判定した文章、すなわち収集翻訳文に基づきステップＳ１２〜１４の処理を実行する。これにより、制御部１１は翻訳文と不一致の収集翻訳文を基に、新たな文章を収集していく。

翻訳文と一致しない文章がないと判定した場合（Ｓ１５：ＮＯ）、制御部１１は、第１言語及び第２言語夫々の文章を対応付けて文例ＤＢ１４１に記憶する（ステップＳ１６）。具体的に制御部１１は、収集した文章からキーワード、種類、ジャンル等のカテゴリーを判別し、判別したカテゴリーに対応付けて第１言語及び第２言語の文章を記憶する。制御部１１は、一連の処理を終了する。

図１１は、文章の追加取得処理の処理手順の一例を示すフローチャートである。図１１に基づき、情報処理システムが入力文を新たな文例として追加取得する処理の処理内容について説明する。
端末２の制御部２１は、文章の入力を受け付ける（ステップＳ４１）。例えば制御部２１は、音声入力部２７を介して文章の音声入力を受け付ける。制御部２１は、受け付けた文章に係るデータをサーバ１に送信する（ステップＳ４２）。

サーバ１の制御部１１は、当該データを端末２から受信することで、端末２を介した文章の入力を受け付ける（ステップＳ４３）。制御部１１は、受け付けた文章に含まれる要素に応じて、当該文章のカテゴリーを判別する（ステップＳ４４）。例えば制御部１１は、文章中の単語、文節等に応じて、文章に含まれるキーワード、ジャンル等を判別する。また、例えば制御部１１は、文章に含まれる動詞、動名詞等の単語、又は文章の構文構造などに応じて、文章の種類を判別する。制御部１１は、判別したキーワード、ジャンル、種類等を総合して、文章のカテゴリーを判別する。制御部１１は、判別したカテゴリーと同一カテゴリーに属する文例を、文例ＤＢ１４１から抽出する（ステップＳ４５）。

制御部１１は、ステップＳ４３で受け付けた文章と、ステップＳ４５で抽出した各文例との類似度を計算する（ステップＳ４６）。例えば制御部１１は、コサイン類似度に係る推定法を用いて、端末２で入力された文章と、文例ＤＢ１４１から抽出した各文例との類似度を計算する。制御部１１は、各文例について計算した各類似度のうち、最も高い類似度が所定の閾値以上であるか否かを判定する（ステップＳ４７）。閾値以上であると判定した場合（Ｓ４７：ＹＥＳ）、制御部１１は、入力文との類似度が最も高い文例に基づいてユーザによる発話を解析し、ユーザの発話に対する回答を生成する（ステップＳ４８）。例えば制御部１１は、ステップＳ４４で判別した入力文のキーワード、種類、ジャンル等のカテゴリーから入力文の内容を推定し、当該入力文に対する回答を示す音声、画像等のデータを生成する。制御部１１は、生成した回答を端末２に出力し（ステップＳ４９）、一連の処理を終了する。

最も高い類似度が閾値以上でないと判定した場合（Ｓ４７：ＮＯ）、制御部１１は、入力文との類似度が最も高い文例から疑問文を生成する（ステップＳ５０）。例えば記憶部１２は、疑問文を生成するための定型文を予め記憶しておく。制御部１１は記憶部１２から定型文を読み出し、類似度が最も高い文例を定型文に当てはめることで疑問文を生成する。例えば制御部１１は、疑問文に係る音声データを生成する。制御部１１は、生成した疑問文が入力文と置換可能か否かを端末２に問い合わせる（ステップＳ５１）。すなわち制御部１１は、上記で生成した疑問文を含む音声データを端末２に出力する。

端末２に制御部２１は、サーバ１から送信された問い合わせに係るデータを受信する（ステップＳ５２）。制御部２１は、受信したデータを参照し、ステップＳ５０で生成された疑問文がステップＳ４１で入力された文章と置換可能か否かを問う音声を音声出力部２６より出力する（ステップＳ５３）。なお、制御部２１は音声出力ではなく、表示部２４における画像表示により問い合わせの出力を行ってもよい。制御部２１は、問い合わせに係る音声に対し、文章と文例とが置換可能か否かを示す応答の入力を受け付ける（ステップＳ５４）。例えば制御部２１は、音声入力部２７においてユーザによる音声入力を受け付ける。制御部２１は、受け付けた音声に係る応答信号をサーバ１に送信する（ステップＳ５５）。

サーバ１の制御部１１は、端末２から送信された応答信号を受信することで、置換可能か否かを示す応答の入力を受け付ける（ステップＳ５６）。制御部１１は、当該応答信号を参照し、疑問文が入力文と置換可能か否かを判定する（ステップＳ５７）。置換可能であると判定した場合（Ｓ５７：ＹＥＳ）、制御部１１は、ステップＳ４３で受け付けた文章を、ステップＳ４５で抽出した文例と対応付けて文例ＤＢ１４１に記憶する（ステップＳ５８）。すなわち制御部１１は、ステップＳ４４で判別したカテゴリーに分類して入力文を文例ＤＢ１４１に追加する。また、制御部１１はステップＳ５８において、後述するステップＳ５９〜Ｓ６１の処理により再入力された入力文が置換可能であると判定した場合、元の入力文を併せて文例ＤＢ１４１に追加してもよい。つまり制御部１１は、再入力された入力文が置換可能である旨の応答を受け付けた場合、再入力前に受け付けた入力文を併せて記憶する。これにより、制御部１１はより多様な表現の文章を追加取得することができる。制御部１１は、処理をステップＳ４８に移行する。

置換可能でないと判定した場合（Ｓ５７：ＮＯ）、制御部１１は、文章の再入力を要求する催促文を生成し、端末２に送信する（ステップＳ５９）。端末２の制御部２１は、当該催促文に係るデータを受信する（ステップＳ６０）。制御部２１は、受信したデータに基づいて催促文に係る音声を音声出力部２６より出力し（ステップＳ６１）、処理をステップＳ４１に戻す。これにより、制御部２１は文章の入力を再度受け付ける。

なお、上記では携帯端末における対話プログラムを例に取って説明したが、本実施の形態はこれに限定されるものではない。例えば情報処理システムは、端末２に代えて、ユーザに応対するロボット等を採用してもよい。この場合、例えばロボットは商業施設の店頭などに設置され、来店したユーザに応対する。ロボットは端末２と同様、音声入力によりユーザの発話を取得し、サーバ１に転送する。サーバ１は、転送されたユーザの発話に係る文章を文例ＤＢ１４１の文例と比較し、新たな文例として追加する。当該構成であっても、上記と同様の効果を奏する。

また、上記では質疑応答を対話形式で行うプログラムを例に取って文章の追加取得処理を説明したが、本実施の形態はこれに限定されるものではない。例えば情報処理システムは、ユーザに対して言語の機械翻訳に係るプログラムを提供してもよい。この場合、サーバ１は文例ＤＢ１４１に記憶された各言語の文例を参照し、端末２からの入力文を解析して機械翻訳を行う。そしてサーバ１は、入力文が文例ＤＢ１４１の文例のいずれとも非類似である場合に問い合わせを行い、新たな文例を追加取得する。このように、サーバ１がユーザにより入力された入力文を端末２から取得可能であればよく、その他の処理内容は特に限定されない。

また、上記でサーバ１は、図１０で説明した文章収集処理によって収集した文例に、図１１で説明した追加取得処理によって取得した文章を追加したが、本実施の形態はこれに限定されるものではない。例えばサーバ１は、既存のコーパスデータを記憶しておき、当該コーパスに新たな文例を追加していく形態であってもよい。

以上より、本実施の形態１によれば、最も類似度の高い文例に応じて回答、問い合わせ等の出力処理を行うことにより、多様な文章表現について言語処理を行うことができる。

また、本実施の形態１によれば、ユーザに対して問い合わせを行うことで、サーバ１は既存の文例の意味、内容をより正確に把握する機会を得ることができる。

また、本実施の形態１によれば、疑問文を生成するための定型文を用意しておくことで、ユーザへの問い合わせを適切に行うことができる。

また、本実施の形態１によれば、入力文を言い換えた文章の再入力を促すことで、適切に表現された文章を取得することができる。

また、本実施の形態１によれば、再入力された文章を新たな文例として文例ＤＢ１４１に記憶することで、より多様な文章表現に係るコーパスを構築することができる。

また、本実施の形態１によれば、サーバ１は、各文章をカテゴリー別に管理することで、入力文との類否判定に際して同一カテゴリーに属する文例のみを抽出してマッチングすればよく、処理負荷を軽減することができる。

（実施の形態２）
本実施の形態では、端末２から取得した文章について信頼度を計算する形態について説明する。なお、実施の形態１と重複する内容については、図面に同一の符号を付して説明を省略する。

図１２は、実施の形態２に係る文例ＤＢ１４１のレコードレイアウトの一例を示す説明図である。本実施の形態に係る文例ＤＢ１４１の第１言語列、第２言語列は夫々、各言語の文例と対応付けて、受付回数及び信頼度を記憶している。受付回数は、サーバ１が端末２から文章の再入力を受け付けた回数である。信頼度は、後述するように、受付回数に応じて文章の信頼性を評価した値であり、受付回数が多くなるほど値が大きくなるように計算される。

図１３は、実施の形態２に係る信頼度の計算処理について説明するための説明図である。上述の如く、サーバ１の制御部１１は、端末２を介して入力を受け付けた文章と文例ＤＢ１４１に記憶されている文例との類似度が閾値以上でない場合、端末２に問い合わせを行い、当該文章が置換可能か否かの応答を受け付ける。そして制御部１１は、置換可能でない場合、文章の再入力をユーザに促し、新たな文章を受け付ける。すなわち制御部１１は、複数回に亘って文章の入力を受け付けることで、文例ＤＢ１４１に新たな文例を追加する場合がある。本実施の形態で制御部１１は、上記で文章の入力を受け付けた受付回数に応じて文章の信頼度を計算し、計算した信頼度に応じて入力文を文例ＤＢ１４１に記憶する。具体的に制御部１１は、以下の式（１）に基づいて信頼度Ｒを計算する。

Ｒ＝１−１／ｋ …（１）

なお、ｋは文章の受付回数である。式（１）に示すように、信頼度Ｒは、受付回数が増えるほど値が大きくなる。受付回数が少ない状態（例えば１回）で置換可能であると判断された文章を学習した場合、誤った表現の文章を学習する虞が高まるため、上記のように、制御部１１は受付回数が増えるほど信頼度Ｒを高く計算する。なお、式（１）は一例であって、例えば制御部１１はシグモイド関数を用いて信頼度Ｒを計算してもよい。制御部１１は、入力文が置換可能である旨の応答を端末２から受け付けた場合、式（１）に従って信頼度Ｒを計算する。

例えば制御部１１は、計算した信頼度Ｒが低い場合、入力文を文例ＤＢ１４１に記憶しない。具体的に制御部１１は、計算した信頼度Ｒが所定の閾値以上であるか否かを判定する。信頼度Ｒが閾値未満であると判定した場合、制御部１１は入力文の信頼性が低いとして文章を捨象し、文例ＤＢ１４１に追加しない。この場合、例えば制御部１１はさらに文章の再入力を端末２に要求し、ユーザにより言い換えられた新たな文章の入力を受け付ける。再入力された文章に係る信頼度Ｒが閾値以上である場合、制御部１１は、上記の受付回数ｋ、信頼度Ｒと共に文章を文例ＤＢ１４１に記憶する。これにより、制御部１１は信頼性の高い入力文のみを学習することができる。

なお、例えば制御部１１は、信頼度Ｒが低い場合であっても入力文を捨象せず、当該入力文を文例ＤＢ１４１に記憶してもよい。この場合、例えば制御部１１は、ユーザとの対話プログラムを実行するにあたり、例えば信頼度Ｒが高い順に文例を参照してユーザの発言を解析する。このように、制御部１１は信頼度Ｒを記録しておくことで、信頼性の高い自然言語処理を行うことができる。

図１４は、実施の形態２に係る情報処理システムが実行する処理手順の一例を示すフローチャートである。端末２を介して文章の入力を受け付けた場合（ステップＳ４３）、サーバ１の制御部１１は以下の処理を実行する。
制御部１１は、文章の入力受付が１回目であるか否かを判定する（ステップＳ２０１）。１回目でないと判定した場合（Ｓ２０１：ＮＯ）、制御部１１は処理をステップＳ２０３に移行する。１回目であると判定した場合（Ｓ２０１：ＹＥＳ）、制御部１１は、カウンタｋを０に設定する（ステップＳ２０２）。カウンタｋは、入力文の受付回数をカウントするためのカウンタである。制御部１１は、カウンタｋに１を加算する（ステップＳ２０３）。制御部１１は、ステップＳ４３で文章の入力を受け付ける毎にカウンタｋをインクリメントすることで、入力文の受付回数をカウントする。

ステップＳ５０で生成した疑問文がステップＳ４３で受け付けた文章と置換可能であると判定した場合（Ｓ５７：ＹＥＳ）、制御部１１は、ステップＳ４３で文章の入力を受け付けた受付回数に応じて、置換可能であると判定された文章の信頼度Ｒを計算する（ステップＳ２０４）。具体的に制御部１１は、入力文の受付回数が多いほど信頼度Ｒが高くなるように設定する。例えば制御部１１は、ステップＳ２０３で計数したカウンタｋを式（１）に代入して信頼度Ｒを計算する。

制御部１１は、計算した信頼度Ｒが閾値以上であるか否かを判定する（ステップＳ２０５）。閾値以上でないと判定した場合（Ｓ２０５：ＮＯ）、制御部１１は処理をステップＳ５９に移行する。閾値以上であると判定した場合（Ｓ２０５：ＹＥＳ）、制御部１１は、置換可能であると判定した入力文を、上記の受付回数ｋ、信頼度Ｒと共に文例ＤＢ１４１に記憶し（ステップＳ２０６）、一連の処理を終了する。

以上より、本実施の形態２によれば、入力文について信頼度Ｒを計算することで、適切な言い換え表現に係る文章を学習することができる。

（実施の形態３）
本実施の形態では、疑問文と置換不可能な入力文に基づいて文章収集を行い、より多様な文章表現を獲得する形態について述べる。
図１５は、実施の形態３に係る文章収集処理について説明するための説明図である。上述の如く、サーバ１の制御部１１は、疑問文と置換可能である文章を、新たな文例として文例ＤＢ１４１に記憶する。一方で、文例ＤＢ１４１に記憶されている文例のいずれとも非類似であり、置換可能でもない文章は、新たな文章表現を獲得する検索キーになり得る。そこで本実施の形態では、サーバ１は置換可能でない旨の応答があった入力文を原文として文章収集処理を行い、言い換え表現に係る文章を取得して文例ＤＢ１４１に記憶する。

例えば制御部１１は、入力文が置換可能でない旨の応答を端末２から受け付けた場合、当該入力文を一時的に記憶部１２に記憶しておく。そして制御部１１は、一時的に記憶しておいた入力文について、当該入力文の対訳である翻訳文を入力すべき旨の要求を管理者端末３に対して行う。例えば制御部１１は、定期的（一日毎など）に要求信号を生成し、管理者端末３に送信する。当該要求信号は、入力文に係るテキストデータを含む。当該要求信号を受信した場合、管理者端末３は、翻訳文の入力を受け付ける。例えば管理者端末３は、図１５に示すように、置換可能でない旨の応答があった日本語の入力文を表示画面に表示すると共に、当該入力文に対する英語の翻訳文の入力を管理者に促す。管理者は、当該文章の翻訳文を管理者端末３に入力する。これにより、管理者端末３は翻訳文の入力を受け付ける。管理者端末３は、入力された翻訳文に係るデータをサーバ１に返信する。

サーバ１の制御部１１は、当該データを管理者端末３から受信することで、対訳文を受け付ける。そして制御部１１は、端末２から置換可能でない旨の応答があった入力文と、管理者端末３を介して入力された翻訳文に基づき、文章の収集を行う。具体的には、制御部１１は実施の形態１と同様に、ネットワークＮを介して第１言語及び第２言語の文章を収集する。すなわち、制御部１１は疑問文と置換可能でない文章を原文とし、管理者端末３から入力された翻訳文に基づきインターネットを介した文章収集を行う。制御部１１は、新たに収集した第１言語及び第２言語の文章を夫々対応付けて、文例ＤＢ１４１に記憶する。これにより、制御部１１は新たな文章表現について言語学習を行うことができる。

図１６は、実施の形態３に係る情報処理システムが実行する処理手順の一例を示すフローチャートである。ステップＳ４３で受け付けた文章が文例ＤＢ１４１に記憶されている文章と置換可能でないと判定し（Ｓ５７：ＮＯ）、文章の再入力を要求する処理を実行した後（ステップＳ５９）、サーバ１の制御部１１は以下の処理を実行する。
制御部１１は、ステップＳ５０で生成した疑問文と置換可能でないと判定された入力文を、一時的に記憶部１２に記憶する（ステップＳ３０１）。すなわち制御部１１は、ステップＳ４３で入力を受け付けた文章のうち、既存の文例と非類似であると判定され、置換可能でもないと判定された文章を記憶しておく。

制御部１１は、記憶部１２に記憶した文章について、当該文章の対訳である翻訳文の入力を管理者端末３に要求する（ステップＳ３０２）。例えば制御部１１は、記憶部１２に記憶してある文章について、当該文章の翻訳文を入力すべき旨の要求信号を生成し、定期的に管理者端末３に送信する。管理者端末３は、当該要求信号を受信する（ステップＳ３０３）。要求信号を受信した場合、例えば管理者端末３は、ステップＳ５７で置換可能でないと判定された文章を表示画面に表示し、当該文章の翻訳文の入力を管理者に促す。管理者端末３は、管理者による翻訳文の入力を受け付ける（ステップＳ３０４）。管理者端末３は、入力された翻訳文に係るデータをサーバ１に送信する（ステップＳ３０５）。

サーバ１の制御部１１は、管理者端末３から当該データを受信することで、翻訳文の入力を受け付ける（ステップＳ３０６）。そして制御部１１は、処理をステップＳ１２に移行する。すなわち制御部１１は、ステップＳ３０２で記憶しておいた文章と、ステップＳ３０６で受け付けた翻訳文とに基づき、インターネットを介した文章収集を行う。これにより、制御部１１は、置換不可能と判定された文章を基に新たな表現に係る文章を収集し、文例ＤＢ１４１に記憶する。

なお、上記でサーバ１は、既存の文例と置換不可能な文章について管理者端末３から翻訳文の入力を受け付けたが、本実施の形態はこれに限定されるものではない。例えばサーバ１は、既存の機械翻訳に係るプログラムを実行して翻訳文を自動生成し、翻訳文に基づいて文章収集を行ってもよい。また、例えばサーバ１は、置換不可能であると判定された文章について、端末２を介して翻訳文の入力をユーザに促してもよい。このように、翻訳文の取得態様は特に限定されない。

以上より、本実施の形態３によれば、置換可能でないと判定された文章に基づき、未収集の文章表現について言語学習を行うことができる。

（実施の形態４）
実施の形態２では、受付回数に応じて入力文の信頼度Ｒを計算し、計算した信頼度Ｒの大小に応じて入力文を新たな文例として文例ＤＢ１４１に追加する形態について述べた。本実施の形態では、文例ＤＢ１４１に追加された各文例の信頼度Ｒに基づき、入力文と文例との類似度を計算する形態について述べる。
図１７は、実施の形態４に係る類似度の計算処理を説明するための説明図である。なお、以下の説明では、サーバ１は実施の形態２に係る処理を実行することで各文例の信頼度Ｒを計算し、文例ＤＢ１４１（図１２参照）に記憶してあるものとして説明する。

本実施の形態に係るサーバ１の制御部１１は、入力文と各文例との類似度を計算するにあたり、文例ＤＢ１４１に記憶した信頼度Ｒに基づき類似度を計算する。具体的には図１７上段に示すように、制御部１１はまず、実施の形態１と同様に入力文と各文例との類似度を計算する。すなわち制御部１１は、入力文及び文例に含まれる各要素の共通性に基づき、類似度を計算する。

さらに制御部１１は、各文例の信頼度Ｒを参照し、新たな類似度を計算する。具体的には図１７中段に示すように、制御部１１は、計算した各文例の類似度に信頼度Ｒを乗算することで、新たな類似度を計算する。これにより、制御部１１は信頼度Ｒの大小を類似度に反映させて計算を行う。すなわち、本実施の形態では、信頼度Ｒが高い文例ほど入力文と最も類似する文章と判断される可能性が高まる。

また、制御部１１は、上記で計算した各文例の類似度の大小に応じて、信頼度Ｒを更新する。具体的に制御部１１は、上記の計算方法により類似度を計算した各文例のうち、最も類似度が高い文例の信頼度Ｒを引き上げるように更新を行う。例えば図１７中段において波線で示す、類似度が最大の文例について信頼度Ｒを更新する場合を考える。この場合、例えば制御部１１は、文例ＤＢ１４１に記憶してある受付回数ｋに１を加算し、新たな回数ｋ’＝ｋ＋１を算出する。図１７下段に示す例の場合、制御部１１は、当初の回数ｋ＝１０に１を加算してｋ’＝１１を算出する。制御部１１は、算出したｋ’を式（１）に代入し、新たな信頼度Ｒ’を計算する。図１７下段に示す例の場合、制御部１１は、ｋ’＝１１を用いて信頼度Ｒ’＝１−１／１１＝０．９１を算出する。実施の形態２でも述べたように、信頼度Ｒは、回数ｋが大きくなるほど値が大きくなる。従って、制御部１１は回数ｋをインクリメントした上で新たな信頼度Ｒ’を計算することにより、従前の信頼度Ｒの値を引き上げる。

制御部１１は、類似度を計算する毎に上記の処理を繰り返すことにより、信頼度Ｒを更新していく。上述の如く、信頼度Ｒが高い文例ほど、入力文と最も類似する文章であると判断される可能性が高い。従って、類似度が最も高く計算された文例は、次回の処理においても類似度が高く計算される。これにより、文例ＤＢ１４１に記憶された複数の文例は、信頼度Ｒが高い文例と同様の意味を持つ文例群であるものとして集約されていく。以上より、同様の意味を持つ多様な表現の文例が一の文例に集約されるため、サーバ１は、より適切な文例に基づいて処理を行うことができる。

図１８は、実施の形態４に係る情報処理システムが実行する処理手順の一例を示すフローチャートである。入力文と同一カテゴリーの文例を文例ＤＢ１４１から抽出した後（ステップＳ４５）、サーバ１の制御部１１は、以下の処理を実行する。なお、制御部１１は実施の形態２に係るステップＳ２０１〜Ｓ２０６の処理により、各文例の信頼度Ｒを文例ＤＢ１４１に記憶してあるものとする。
制御部１１は、抽出した各文例の信頼度Ｒに基づき、入力文と各文例との類似度を計算する（ステップＳ３０１）。具体的に制御部１１は、実施の形態１と同じく、コサイン類似度に係る推定法を用いて入力文と各文例との類似度を計算する。さらに制御部１１は、各文例の信頼度Ｒを文例ＤＢ１４１から読み出す。制御部１１は、各文例について計算した類似度に信頼度Ｒを乗算し、新たな類似度を計算する。制御部１１は、処理をステップＳ４７に移行する。

ステップＳ３０１で計算した各類似度のうち、最も高い類似度が閾値以上であると判定し（Ｓ４７：ＹＥＳ）、入力文に対する回答を生成して端末２に出力した後（ステップＳ４８、Ｓ４９）、制御部１１は以下の処理を実行する。制御部１１は、ステップＳ３０１で計算した各文例の類似度の大小に応じて、信頼度Ｒを更新する処理を行う（ステップＳ３０２）。具体的に制御部１１は、最も類似度が高い文例の信頼度Ｒを更新する。例えば制御部１１は、文例ＤＢ１４１に記憶してある当該文例の受付回数ｋに１を加算し、新たな受付回数ｋ’＝ｋ＋１を算出する。制御部１１は、算出した受付回数ｋ’を式（１）に代入し、新たな信頼度Ｒ’＝１−１／ｋ’を計算する。制御部１１は、計算した回数ｋ’、信頼度Ｒ’を新たに文例ＤＢ１４１に記憶し、一連の処理を終了する。

なお、上記でサーバ１は、最も類似度が高い文例の信頼度Ｒを引き上げるように更新を行ったが、本実施の形態はこれに限定されるものではない。例えばサーバ１は、最も類似度が高い文例を除く、その他の文例の信頼度Ｒを引き下げるように更新を行ってもよい。これにより、類似度が高い文例の信頼度Ｒが相対的に引き上げられ、上記と同様の効果を奏する。

以上より、本実施の形態４によれば、信頼度Ｒに基づき類似度を計算するとともに、信頼度Ｒを更新することで、同様の意味を持つ多様な表現の文章が一の文例に集約され、より適切な文例に基づいて処理を行うことができる。

（実施の形態５）
図１９は、上述した形態のサーバ１の動作を示す機能ブロック図である。制御部１１がプログラムＰ１を実行することにより、サーバ１は以下のように動作する。受付部１９１は、文章の入力を受け付ける。計算部１９２は、複数の文例を記憶する記憶部を参照し、前記受付部が受け付けた前記文章との類似度を計算する。出力部１９３は、前記計算部１９２により計算した各類似度の最も高い類似度に応じた出力処理を行う。

本実施の形態５は以上の如きであり、その他は実施の形態１から４と同様であるので、対応する部分には同一の符号を付してその詳細な説明を省略する。

今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１サーバ（情報処理装置）
１１制御部
１２記憶部
Ｐ１プログラム
１３通信部
１４大容量記憶装置
１４１文例ＤＢ
２端末（端末装置）
２１制御部
２２記憶部
Ｐ２プログラム
２３通信部
２４表示部
２５入力部
２６音声出力部
２７音声入力部
３管理者端末

Claims

文章の入力を受け付ける受付部と、
複数の文例を記憶する記憶部を参照し、前記受付部が受け付けた前記文章との類似度を計算する計算部と、
前記計算部により計算した各類似度の最も高い類似度に応じた出力処理を行う出力部と
を備えることを特徴とする情報処理装置。
前記出力部は、前記文例から疑問文を生成し、前記疑問文が前記文章と置換可能か否かを問い合わせる
ことを特徴とする請求項１に記載の情報処理装置。
前記記憶部は、前記疑問文を生成するための定型文を記憶している
ことを特徴とする請求項２に記載の情報処理装置。
前記出力部からの問い合わせに対する応答を受け付ける第２受付部を備え、
前記文章と置換可能でない旨の応答を前記第２受付部が受け付けた場合、前記受付部は、前記文章の再入力を受け付ける
ことを特徴とする請求項２又は請求項３に記載の情報処理装置。
前記文章と置換可能である旨の応答を前記第２受付部が受け付けた場合、前記記憶部は、前記文章を前記文例と対応付けて記憶する
ことを特徴とする請求項４に記載の情報処理装置。
再入力された前記文章と置換可能である旨の応答を前記第２受付部が受け付けた場合、前記記憶部は、再入力前に前記受付部が受け付けた前記文章を記憶する
ことを特徴とする請求項４又は請求項５に記載の情報処理装置。
前記受付部が前記文章を受け付けた受付回数に応じて、前記文章の信頼度を計算する信頼度計算部を備える
ことを特徴とする請求項４〜請求項６のいずれか１項に記載の情報処理装置。
前記計算部は、前記信頼度計算部が計算した前記信頼度に基づき前記文章と前記文例との類似度を計算し、
前記計算部が計算した各類似度の大小に応じて、前記信頼度を更新する更新部を備える
ことを特徴とする請求項７に記載の情報処理装置。
前記記憶部は、前記文例に含まれる要素に応じて、前記文例をカテゴリー別に記憶し、
前記受付部が受け付けた文章に含まれる要素に応じて、該文章のカテゴリーを判別する判別部を備え、
前記計算部は、前記判別部が判別した前記文章のカテゴリーと同一のカテゴリーに属する前記文例について類似度を計算する
ことを特徴とする請求項１〜請求項８のいずれか１項に記載の情報処理装置。
文章の入力を受け付け、
受け付けた文章を外部装置に送信し、
送信した前記文章と、記憶部に記憶されている文例との類似度に応じて前記外部装置から送信される問い合わせを出力し、
出力した前記問い合わせに対する応答を受け付け、
受け付けた応答を前記外部装置に送信する
処理をコンピュータに実行させることを特徴とするプログラム。