JP7261262B2

JP7261262B2 - 単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法

Info

Publication number: JP7261262B2
Application number: JP2021081498A
Authority: JP
Inventors: 尚樹井上; 壮太佐藤; 亨霜鳥
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2023-04-19
Anticipated expiration: 2041-05-13
Also published as: US20220366714A1; JP2022175251A

Description

本発明は、単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法に関し、応対履歴から好適な質問及び応答の組み合わせを自動抽出する際に必要となる単語間の関係性を算出する単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法に適用して好適なものである。

近年、業務等に関連して蓄積されるデータ量が増大していることから、これら大量のデータのうちから、人間が必要とする部分のみをピックアップし提示したいというニーズが高まっている。このようなデータ抽出の分野において使用される技術は、機械学習や統計的処理等の手法が主流となっており、そのなかでも、単語（キーワード）同士の関連付けの抽出が、基礎的な技術として研究が進んでいる。

機械学習や統計的処理では、大量のデータを前提としてキーワード同士の関連付けを行う。このため、データの蓄積途中や分野が細分化されている場合には、十分な関連付けが可能なほどにデータ量が多くなく、適切なキーワード同士の関連付けを行うことができないという問題があった。

このような問題に対し、例えば、特許文献１には、入力単語に関連するキーワード（用語一覧）を増幅することで、特定分野において関連性の高いキーワード同士の関連付けを行う技術が示されている。

特開２００７－１５７００６号公報

しかし、特許文献１に開示された技術の場合、単語（キーワード）ごとに対応する分野の語句を用意する必要があり、複数分野に亘る多くのキーワードを扱うときには、膨大な量の語句を用意しなければならなかった。また、特許文献１に開示された技術では、入力されるデータ量が初期状態に比べて増大した場合に、用語一覧をメンテナンスし続けていないと、用語一覧の内容に偏ってキーワード同士の関連付けが行われ易くなるという課題があった。

本発明は以上の点を考慮してなされたもので、蓄積されるデータ量の変化に応じて、当該データに含まれる単語間の関連度を適切に算出し、好適な関連語句を抽出可能にする単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法を提案しようとするものである。

かかる課題を解決するため本発明においては、１以上の文書が蓄積された文書データに含まれる単語間の関連度を算出する単語間スコア算出装置であって、外部から入力される前記文書を前記文書データに蓄積し保持する第１データ保持部と、所定の用語が記載された用語一覧データを保持する第２データ保持部と、前記用語一覧データに記載された用語に該当し、かつ、前記文書データを構成する前記文書に含まれる単語である増幅候補単語を、繰り返し増やして前記文書データに追加する合成処理を実行可能な単語合成部と、前記単語合成部による処理後の前記文書データを用いて、当該文書データに含まれる単語間の関連度を所定の算出方法で算出する単語間スコア算出部と、を備え、前記文書データに蓄積された文書量が第１の所定量よりも少ない場合に、前記単語合成部が前記文書データに前記増幅候補単語を追加する、単語間スコア算出装置が提供される。

また、かかる課題を解決するため本発明においては、１以上の文書が蓄積された文書データから、質問文と応答文との組み合わせを抽出する質問応答抽出システムであって、前記文書データに含まれる単語間の関連度を算出する単語間スコア算出装置と、前記単語間スコア算出装置によって算出された前記関連度を用いて、前記文書データに含まれる前記文書から、前記関連度が高い単語の組み合わせを有する質問文と応答文との組み合わせを抽出するＱ＆Ａ抽出装置と、を備え、前記単語間スコア算出装置は、質問文とその応答文とを含む前記文書を前記文書データに蓄積し保持する第１データ保持部と、所定の用語が記載された用語一覧データを保持する第２データ保持部と、前記用語一覧データに記載された用語に該当し、かつ、前記文書データを構成する前記文書に含まれる単語である増幅候補単語を、繰り返し増やして前記文書データに追加する合成処理を実行可能な単語合成部と、前記単語合成部による処理後の前記文書データを用いて、当該文書データに含まれる単語間の関連度を所定の算出方法で算出する単語間スコア算出部と、を有し、前記文書データに蓄積された文書量が第１の所定量よりも少ない場合に、前記単語合成部が前記文書データに前記増幅候補単語を追加する、質問応答抽出システムが提供される。

また、かかる課題を解決するため本発明においては、１以上の文書が蓄積された文書データに含まれる単語間の関連度を算出する単語間スコア算出装置による単語間スコア算出方法であって、前記単語間スコア算出装置は、所定の用語が記載された用語一覧データを保持しており、前記単語間スコア算出装置が、外部から入力される前記文書を前記文書データに蓄積し保持するデータ保持ステップと、前記単語間スコア算出装置が、前記用語一覧データに記載された用語に該当し、かつ、前記文書データを構成する前記文書に含まれる単語である増幅候補単語を、繰り返し増やして前記文書データに追加可能な単語合成ステップと、前記単語間スコア算出装置が、前記単語合成ステップの実行後の前記文書データを用いて、当該文書データに含まれる単語間の関連度を所定の算出方法で算出する単語間スコア算出ステップと、を備え、前記文書データに蓄積された文書量が第１の所定量よりも少ない場合に、前記単語合成ステップにおいて前記単語間スコア算出装置が前記文書データに前記増幅候補単語を追加する、単語間スコア算出方法が提供される。

本発明によれば、蓄積されるデータ量の変化に応じて、当該データに含まれる単語間の関連度を適切に算出し、好適な関連語句を抽出可能にすることができる。

本発明の一実施形態に係る質問応答抽出システム１の構成例を示すブロック図である。単語間スコア算出装置１０及びＱ＆Ａ抽出装置２０のハードウェア構成例を示すブロック図である。応対履歴文書３１０の具体例を示す図である。用語一覧データ３３０の具体例を示す図である。重要単語増幅リスト３４０の具体例を示す図である。合成方法一覧データ３５０の具体例を示す図である。単語間スコアデータ３６０の具体例を示す図である。生成Ｑ＆Ａデータ４１０の具体例を示す図である。選択Ｑ＆Ａデータ４２０の具体例を示す図である。単語間スコア算出処理の処理手順例を示すフローチャートである。増幅回数算出処理の処理手順例を示すフローチャートである。総回数のイメージを説明するための図である。

以下、図面を参照して、本発明の一実施形態を詳述する。

（１）システム構成
図１は、本発明の一実施形態に係る質問応答抽出システム１の構成例を示すブロック図である。質問応答抽出システム１は、応対履歴から適切な質問及び応答の組み合わせを自動抽出するシステムであって、通信可能に接続された単語間スコア算出装置１０及びＱ＆Ａ抽出装置２０を備えて構成される。図１に示すように、単語間スコア算出装置１０は、Ｑ＆Ａ抽出装置２０の他に、応対履歴入力者端末３０及びシステム管理者端末４０とも通信可能に接続される。また、Ｑ＆Ａ抽出装置２０は、単語間スコア算出装置１０の他に、システム利用者端末５０とも通信可能に接続される。

（１－１）単語間スコア算出装置１０
単語間スコア算出装置１０は、過去の応対履歴を記録した応対履歴文書３１０を分解して、文書内の単語の組み合わせにおける関連度（単語間のスコア）を算出する装置である。詳細は後述するが、本実施形態に係る単語間スコア算出装置１０は、蓄積されていく応対履歴文書３１０の文書量（データ量）の変化に応じて、単語間のスコアの算出における、システム管理者から与えられる関連語句の用語一覧（用語一覧データ３３０）による影響度合いを変化させることを１つの特徴とする。

図１に示すように、単語間スコア算出装置１０は、応対履歴保持部１１０、文書内単語抽出部１２０、増幅候補単語抽出部１３０、単語増幅部１４０、単語合成部１５０、単語間スコア算出部１６０、重要単語抽出部１７０、及びデータ保持部１８０を備えて構成される。そして、応対履歴保持部１１０は、応対履歴文書３１０を保持し、データ保持部１８０は、単語辞書データ３２０、用語一覧データ３３０、重要単語増幅リスト３４０、合成方法一覧データ３５０、及び単語間スコアデータ３６０を保持する。

応対履歴保持部１１０は、応対履歴入力者端末３０からテキスト形式で入力される応対記録（応対履歴）を、応対履歴文書３１０に蓄積して保持する。応対履歴入力者端末３０からの応対履歴の入力タイミングは特に限定されず、任意のタイミングで最初の応対履歴が入力されてよく、さらに、任意のタイミングで応対履歴が追加されてよい。

応対履歴文書３１０は、応対担当者が受けた質問文（Ｑ）とその応答文（Ａ）とを含むテキスト形式の応対記録を１つの文書として、１以上の文書データを蓄積する情報である。なお、本実施形態では、１つの応対記録（１文書）において、１つの質問文（Ｑ）と１つの応答文（Ａ）が存在するという最も簡易なケースだけでなく、１つのＱに対して２以上のＡが存在するケースや、２以上のＱに対して１以上のＡが存在するケースも想定している。応対履歴文書３１０は、文書内単語抽出部１２０に参照される他、Ｑ＆Ａ抽出装置２０のＱ＆Ａ抽出部２１０に提供される。応対履歴文書３１０の具体的なデータ構成については図３を参照しながら後述する。

なお、本実施形態では単語間スコア算出装置１０はＱ＆Ａ抽出装置２０と接続されるため、応対履歴文書３１０に蓄積される応対記録の１文書は、質問文と応答文とを含む少なくとも２文以上の文書となるが、単語間スコア算出装置１０が他の用途に使用される場合は、１文書は１以上の文から構成されるとしてもよい。

文書内単語抽出部１２０は、応対履歴保持部１１０から応対履歴文書３１０を抽出し、抽出した文書に含まれる、単語辞書データ３２０に登録された単語を抽出する機能を有する。上記機能における詳しい処理の一例を示すと、文書内単語抽出部１２０は、応対履歴文書３１０に記録された応対履歴の文書（応対履歴３１２）を抽出し、抽出した文書にラベル付けをし、当該文書を文単位に分割する。そして、文書内単語抽出部１２０は、文単位に分割した上記文書から、関連を有する文の組み合わせ（Ｑ＆Ａ候補文）を抽出する。さらに文書内単語抽出部１２０は、抽出したＱ＆Ａ候補文を構成する各文に対して単語辞書データ３２０を用いた検索を行い、Ｑ＆Ａ候補文を構成する文ごとに、該当する単語を抽出する。文書内単語抽出部１２０が抽出した単語は、例えば、文単位でまとめてリスト化されて増幅候補単語抽出部１３０に入力される。

図示は省略するが、単語辞書データ３２０は、言語（例えば日本語）の単語分割に必要な情報（例えばパーサの辞書等）を格納した辞書データであって、予めシステム管理者等によって設定されるとする。単語辞書データ３２０には、例えばＭｅＣａｂの辞書を用いることができる。

増幅候補単語抽出部１３０は、文書内単語抽出部１２０から入力されたリストに含まれる単語に対して、用語一覧データ３３０を用いた比較を行い、用語一覧データ３３０に記載された用語と一致する単語を、単語増幅部１４０が増幅する単語の候補（増幅候補単語）として決定する機能を有する。詳細は後述するが、本実施形態に係る単語間スコア算出装置１０は、蓄積されたデータ量（応対履歴文書３１０の文書数）の変化に応じて単語間の関連の重み付けを調節するために、Ｑ＆Ａ候補文を構成する文に対して、当該文に関連が高い単語を増幅して追加し得ることを１つの特徴としている。

用語一覧データ３３０は、応対履歴文書３１０に記録される応対記録の分野に関係すると想定される１以上の用語が列挙されたデータであり、任意のデータを利用することができる。具体的には例えば、用語集やマニュアルの索引を使用してもよいし、コマンド名の一覧等を使用してもよいし、あるいは、これらの情報のうちからシステム管理者等が適当に選択した単語をデータ化したものを使用してもよい。なお、用語一覧データ３３０は、後述する重要単語増幅リスト３４０のように辞書や単語の関連性を記述したものである必要はなく、単に応対履歴文書３１０に存在し得る単語を区別することができる程度のものであればよい。

また、用語一覧データ３３０における用語の登録方法は、「単語」自体を登録することに限定されず、正規表現に代表される所定の「規則」を用いた表記によって用語を登録することも可能とする。そこで、用語一覧データ３３０には、登録される用語ごとに、「単語」であるか「規則」であるかの種別を識別するための情報（例えばフラグ）も登録されるとし、さらに「規則」の詳細な種別も登録されるとしてよい。用語一覧データ３３０の具体的なデータ構成については図４を参照しながら後述する。

単語増幅部１４０は、増幅候補単語抽出部１３０が抽出した増幅候補単語のそれぞれについて、重要単語増幅リスト３４０に基づいて増幅回数を算出し（増幅回数算出処理）、算出した増幅回数だけ当該増幅候補単語を増幅した増幅リストを作成する機能を有する。

重要単語増幅リスト３４０は、用語一覧データ３３０に登録された用語ごとに、当該用語の増幅に関する設定を示す情報である。重要単語増幅リスト３４０は、例えばシステム管理者によって設定され、適宜変更可能である。重要単語増幅リスト３４０の具体的なデータ構成については図５を参照しながら後述する。

単語合成部１５０は、単語増幅部１４０によって作成された増幅リストを、合成方法一覧データ３５０で指定される合成方法に従って、応対履歴文書（厳密には、応対履歴文書に含まれる各文、各文書、あるいは全体文書）に合成する機能を有する。

合成方法一覧データ３５０は、単語合成部１５０による合成に関する設定が指定されたデータである。合成方法一覧データ３５０で指定される合成方法は、単語間スコア算出部１６０による単語間スコアの計算方法に従って、決定されているとする。合成方法一覧データ３５０の具体的なデータ構成については図６を参照しながら後述する。

単語間スコア算出部１６０は、単語合成部１５０によって用語が合成された後の応対履歴文書を用いて、応対履歴文書の各文書に含まれる単語と単語の組み合わせを作成し、各組み合わせについて、所定の計算方法で、単語間の関連度を示す単語間スコアを算出する機能を有する。単語間スコアの計算方法には、Ｗｏｒｄ２Ｖｅｃや統計的手法などの既知の計算方法を利用できるため、詳細な説明は省略する。単語間スコア算出部１６０が算出した単語間スコアは、データ保持部１８０に送られ、単語間スコアデータ３６０に記録される。

単語間スコアデータ３６０は、単語間スコア算出部１６０によって算出された単語間スコアを保持するデータである。単語間スコアデータ３６０の具体的なデータ構成については図７を参照しながら後述する。

重要単語抽出部１７０は、Ｑ＆Ａ抽出装置２０のＱ＆Ａ保持部２２０が保持する選択Ｑ＆Ａデータ４２０に含まれる単語と、データ保持部１８０が保持する単語間スコアデータ３６０に記載された単語の組み合わせとに基づいて、選択されやすいＱ＆Ａに存在する単語を重要単語として抽出する機能を有する。重要単語抽出部１７０は、抽出した重要単語をリスト化し、重要単語増幅リスト３４０に追加することにより、選択されやすいＱ＆Ａに存在する単語を、以降に実施される単語間スコア算出における増幅候補の用語として登録することができる。

（１－２）Ｑ＆Ａ抽出装置２０
Ｑ＆Ａ抽出装置２０は、単語間スコア算出装置１０による単語間スコアの算出結果を用いて、Ｑ＆Ａの応対履歴から好適なＱ＆Ａ（質問と応答の組み合わせ）を生成し、これを生成Ｑ＆Ａデータ４１０として保持する装置である。また、Ｑ＆Ａ抽出装置２０は、システム利用者がシステム利用者端末５０においてＱ＆Ａの検索操作を行った場合に、保持する生成Ｑ＆Ａデータ４１０のうちから、検索条件に該当するＱ＆Ａをシステム利用者端末５０に提供する。システム利用者は、Ｑ＆Ａの検索操作において、検索条件として質問（Ｑ）を入力する。また、Ｑ＆Ａ抽出装置２０は、システム利用者端末５０に提供したＱ＆Ａのうち、システム利用者によって利用（選択）されたＱ＆Ａの選択結果を、選択Ｑ＆Ａデータ４２０として保持し、単語間スコア算出装置１０における重要単語の抽出のために提供する機能も有する。

Ｑ＆Ａ抽出装置２０は、Ｑ＆Ａ抽出部２１０及びＱ＆Ａ保持部２２０を備えて構成され、Ｑ＆Ａ保持部２２０は、生成Ｑ＆Ａデータ４１０及び選択Ｑ＆Ａデータ４２０を保持する。

Ｑ＆Ａ抽出部２１０は、単語間スコア算出装置１０の応対履歴保持部１１０に保持された応対履歴文書３１０とデータ保持部１８０に保持される単語間スコアデータ３６０とを用いて、応対履歴文書３１０に含まれる複数の質問文（Ｑ）と応答文（Ａ）のうちから、高い関連度（単語間スコア）を有する単語の組み合わせを含むＱ＆Ａを抽出することにより、好適なＱ＆Ａを生成する。なお、上記のようにしてＱ＆Ａ抽出部２１０が抽出するＱ＆Ａは、最も単語間スコアが高い１組のＱ＆Ａとしてもよいし、単語間スコアが上位のほうから所定数の組のＱ＆Ａとしてもよい。また、上位の単語間スコアが算出された単語の出現回数を考慮して、好適なＱ＆Ａの組み合わせを抽出するようにしてもよい。そして、Ｑ＆Ａ抽出部２１０は、生成した好適なＱ＆Ａを、Ｑ＆Ａ保持部２２０に保持される生成Ｑ＆Ａデータ４１０に追加する。

生成Ｑ＆Ａデータ４１０は、上述した通り、Ｑ＆Ａ抽出部２１０によって生成されたＱ＆Ａを示すデータであり、システム利用者端末５０から検索要求を受けた場合には、生成Ｑ＆Ａデータ４１０のうちから検索条件に該当するＱ＆Ａが提供される。後述する図８では、生成Ｑ＆Ａデータ４１０の具体例を示す。

選択Ｑ＆Ａデータ４２０は、システム利用者（システム利用者端末５０）によって利用（選択）されたＱ＆Ａの選択結果を示すデータであり、単語間スコア算出装置１０の重要単語抽出部１７０に提供されて、重要単語の抽出に用いられる。後述する図９では、選択Ｑ＆Ａデータ４２０の具体例を示す。

（１－３）応対履歴入力者端末３０
応対履歴入力者端末３０は、応対履歴入力者が使用する端末であって、質問及び応答の応対履歴をテキスト形式で単語間スコア算出装置１０に入力する機能を有する。応対履歴入力者端末３０から単語間スコア算出装置１０に入力された応対履歴は、応対履歴保持部１１０において応対履歴文書３１０として蓄積される。

なお、応対履歴入力者端末３０が応対履歴をテキスト形式で入力する具体的な方法は、特に限定されない。例えば、応対履歴入力者がキーボード等の入力装置を操作して、質問及び応答の応対記録をテキストで入力するようにしてもよいし、音声をテキストに変換する既存の音声テキスト化装置を用いて、応対記録の音声データをテキスト化して入力するようにしてもよい。

なお、本実施形態では、定期的あるいは不定期に、実施済みの応対記録を用いて、応対履歴入力者端末３０から応対履歴の入力が行われることを想定する。したがって、応対履歴保持部１１０で保持される応対履歴文書３１０に含まれる文書数は、時間経過とともに増加する。

（１－４）システム管理者端末４０
システム管理者端末４０は、質問応答抽出システム１のシステム管理者が使用する端末であって、システム管理者による操作を受け付け、当該操作に応じて、単語間スコア算出装置１０のデータ保持部１８０で保持される用語一覧データ３３０及び重要単語増幅リスト３４０を管理する機能を有する。システム管理者（システム管理者端末４０）が管理する具体的なデータ項目については、図４及び図５の説明において後述される。

なお、実運用においては、システム管理者は、重要単語増幅リスト３４０を変更した場合には、図１０で後述する単語間スコア算出装置１０による処理が一通り実行され、Ｑ＆Ａ抽出装置２０のＱ＆Ａ抽出部２１０によってＱ＆Ａの生成が行われた後に、生成Ｑ＆Ａデータ４１０に含まれるＱ＆Ａが、選択Ｑ＆Ａデータ４２０に含まれるＱ＆Ａをどの程度網羅するか、あるいはどの程度変化したか、を確認し、その確認結果に基づいて、重要単語増幅リスト３４０のメンテナンスを行う。具体的なメンテナンスとしては、用語ごとに、単語の増幅率（後述する「用語加重数（Ｔ）」）、単語の全面的な増幅を開始する文書数（後述する「用語適用文書数（Ｍ）」、または単語の増幅を終了する文書数（後述する「用語適用終了文書数（Ｅ）」）を変更することが考えられる。

（１－５）システム利用者端末５０
システム利用者端末５０は、システム利用者が使用する端末であって、Ｑ＆Ａ抽出装置２０に対して、Ｑ＆Ａの検索要求やＱ＆Ａの選択結果の通知を行う。

システム利用者は、質問応答抽出システム１（特にＱ＆Ａ抽出装置２０）による好適なＱ＆Ａの提供サービスを利用するユーザであって、システム利用者端末５０を操作する。システム利用者は、システム利用者端末５０で検索操作を行うことにより、Ｑ＆Ａ抽出装置２０のＱ＆Ａ抽出部２１０で生成されたＱ＆Ａ（生成Ｑ＆Ａデータ４１０）のうちから、所望の条件でＱ＆Ａを検索することができる。そして、検索条件に該当するＱ＆Ａがシステム利用者端末５０に提供されることにより、システム利用者は、検索結果のＱ＆Ａを閲覧することができる。さらに、システム利用者は、表示された検索結果のうちから何れかのＱ＆Ａを実際に利用する場合には、Ｑ＆Ａの選択操作を行う。そしてシステム利用者によって利用（選択）されたＱ＆Ａは、Ｑ＆Ａ抽出装置２０にフィードバックされ、Ｑ＆Ａ保持部２２０において選択Ｑ＆Ａデータ４２０として保持される。

（１－６）ハードウェア構成
図２は、単語間スコア算出装置１０及びＱ＆Ａ抽出装置２０のハードウェア構成例を示すブロック図である。単語間スコア算出装置１０及びＱ＆Ａ抽出装置２０は、例えば、図２に示したハードウェア構成を有する情報処理装置６０によって実現することができる。図２に示した情報処理装置６０は、一般的な情報処理装置であって、入力装置６１、出力装置６２、メモリ６３、記憶装置６４、ＣＰＵ６５、及びＩ／Ｆ６６が、バス６７によって互いに接続されて構成される。

入力装置６１は、操作者による入力を受け付ける装置であって、例えば、キーボード、マウス、またはタッチパネル等である。出力装置６２は、ＣＰＵ６５によって実行された処理の結果、あるいは、メモリ６３または記憶装置６４に保持されたデータ等を出力する装置であって、例えば、ディスプレイまたはプリンタ等である。Ｉ／Ｆ６６は、通信インタフェース及び入出力インタフェース等の各種インタフェースである。バス６７は、内部通信線であって、情報処理装置６０内の各装置を連結し、これらの装置間における情報のやり取りを実現する。

メモリ６３は、主にＲＡＭ（Random Access Memory）等の主記憶装置であって、ＣＰＵ６５がプログラムを実行するために使用する。記憶装置６４は、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の非一時的な補助記憶装置であって、上記プログラムやプログラムを実行する際に参照されるデータ等を記憶する。例えば、情報処理装置６０が単語間スコア算出装置１０である場合、応対履歴保持部１１０及びデータ保持部１８０は、当該情報処理装置６０の記憶装置６４によって実現できる。同様に、情報処理装置６０がＱ＆Ａ抽出装置２０である場合、Ｑ＆Ａ保持部２２０は、当該情報処理装置６０の記憶装置６４によって実現できる。

ＣＰＵ６５は、演算処理を行うプロセッサの一例であって、例えばＣＰＵ（Central Processing Unit）である。情報処理装置６０では、ＣＰＵ６５が記憶装置６４に記憶されたプログラムをメモリ６３を用いて実行することにより、当該装置が有する所定の機能（具体的には、図１に示した単語間スコア算出装置１０が備える応対履歴保持部１１０及びデータ保持部１８０以外の各機能部、及びＱ＆Ａ抽出装置２０のＱ＆Ａ抽出部２１０に相当）が実現される。なお、情報処理装置６０においてＣＰＵ６５が実行するプログラムや参照するデータの一部または全ては、記憶装置６４に予め格納されていてもよいし、必要に応じて、Ｉ／Ｆ６６を介して、ネットワークで接続された他の装置の非一時的記憶装置から、または非一時的な記憶媒体から、情報処理装置６０の記憶装置６４に格納されるように構成されてもよい。

なお、図１に示した応対履歴入力者端末３０、システム管理者端末４０、及びシステム利用者端末５０も、図２に示した情報処理装置６０と同様のハードウェア構成を備えた計算機によって実現することができる。

（２）データ構成

図３は、応対履歴文書３１０の具体例を示す図である。応対履歴文書３１０は、Ｑ＆Ａを含む過去の応対記録を蓄積して保持する情報である。図３の場合、応対履歴文書３１０は、履歴ＩＤ３１１及び応対履歴３１２の項目を有する。

履歴ＩＤ３１１は、１組ごとの応対履歴（Ｑ＆Ａ）を一意に識別するための識別子である。応対履歴３１２には、応対記録の内容がテキスト形式の文書で記録される。応対履歴３１２に記録される文書は、一般に２以上の文から構成され、より詳しくは、質問（Ｑ）を含む１以上の文と、１以上の応答（Ａ）を含む１以上の文とを含む。

なお、以降の説明では、正確には「応対履歴文書３１０の応対履歴３１２に記録された文書」と記載するところを、簡略のために「応対履歴文書３１０」と広義に表記したり、単に「入力文書」と表記したりする場合がある。また、特に断りがない場合、「文書数が増加する」とは、応対履歴文書３１０に登録される応対記録の文書数（レコード数）が増加することを意味する。

図４は、用語一覧データ３３０の具体例を示す図である。用語一覧データ３３０は、応対履歴文書３１０に記録される応対記録の分野に関係する用語が列挙されたデータである。図４の場合、用語一覧データ３３０は、用語３３１及び種別フラグ３３２の項目を有する。

用語３３１は、用語を表す単語、または用語を表す規則である。用語を表す代表的な規則としては正規表現が挙げられる。種別フラグ３３２は、用語３３１の種別を示す符号である。具体的には、「単語」か「規則」の何れかを示す符号であってもよいし、「規則」はその種類まで示す符号（例えば「正規表現」）であってもよい。

図５は、重要単語増幅リスト３４０の具体例を示す図である。重要単語増幅リスト３４０は、用語一覧データ３３０に登録された用語（単語だけでなく規則でもよい）ごとに、当該用語の増幅に関する設定を示す情報である。なお、重要単語増幅リスト３４０は、特殊なケースとして、個別に設定されていない用語に対する値（例えば、図５における「－（その他）」）も、情報として持つことができる。図５の場合、重要単語増幅リスト３４０は、用語３４１、種別フラグ３４２、用語適用文書数３４３、用語適用終了文書数３４４、及び用語加重数３４５の項目を有する。

用語３４１は、用語を表す単語、または用語を表す規則であり、用語一覧データ３３０の用語３３１と対応する。種別フラグ３４２は、用語３４１の種別を示す符号であり、用語一覧データ３３０の種別フラグ３３２と対応する。

用語適用文書数３４３は、用語の増幅を全面的に適用開始する入力文書の文書数を示し、以下の説明ではその文書数を「Ｍ」とする。

用語適用終了文書数３４４は、用語の増幅を終了する条件とする入力文書の文書数を示し、以下の説明ではその文書数を「Ｅ」とする。なお、用語の増幅の終了条件を指定しない場合は、図５の上から３番目のレコードに示したように、用語適用終了文書数３４４には「∞（無限大）」が設定される。

用語加重数３４５は、用語の基本的な増幅回数（増幅率でもよい）を示し、以下の説明ではその増幅回数を「Ｔ」とする。用語加重数３４５は、文書ごとに適用される増幅回数とする。なお、本説明では、用語加重数３４５は増幅回数で指定されるとするが、別例として、増幅回数にかえて増幅率を指定してもよい。

図６は、合成方法一覧データ３５０の具体例を示す図である。合成方法一覧データ３５０は、増幅した用語（単語）を入力文書等に合成する単語合成に関する設定を示すデータである。図６の場合、合成方法一覧データ３５０は、合成方法３５１及び増幅要否３５２の項目を有する。

合成方法３５１は、増幅した単語（増幅リスト）の合成方法を示す情報であって、増幅リストの追加先が指定される。具体的には「文単位」とは、文書内単語抽出部１２０が単語を抽出したＱ＆Ａ候補文に増幅リストを追加することを意味し、「文書単位」とは、Ｑ＆Ａ候補文を含む応対履歴文書３１０内の１文書に増幅リストを追加することを意味し、「文書全体」とは、応対履歴文書３１０の文書全体に増幅リストを追加することを意味する。

増幅要否３５２は、合成方法３５１で指定された合成方法による増幅の実施要否を示す。なお、図６において「文単位」と「文書全体」の増幅要否３５２が「ＹＥＳ」となっているように、複数の合成方法を同時に適用することも可能である。

図７は、単語間スコアデータ３６０の具体例を示す図である。単語間スコアデータ３６０は、単語間スコア算出部１６０によって算出された単語間スコアを保持するデータである。図７の場合、単語間スコアデータ３６０は、第１単語３６１、第２単語３６２、及びスコア３６３の項目を有する。

第１単語３６１及び第２単語３６２は、単語間スコアが算出された単語の組み合わせを示す。スコア３６３は、算出された単語間スコアであり、数値が大きいほど、第１単語３６１と第２単語３６２との関連が強いことを意味する。前述したように、単語間スコアは、Ｗｏｒｄ２Ｖｅｃや統計的手法などの既知の計算方法を用いて算出されるため、スコア３６３に記載される値は、その計算方法に依存した値となる。

図８は、生成Ｑ＆Ａデータ４１０の具体例を示す図である。生成Ｑ＆Ａデータ４１０は、単語間スコア算出装置１０によって算出された単語間スコアに基づいて、Ｑ＆Ａ抽出部２１０によって生成されたＱ＆Ａを記録したデータである。図８の場合、生成Ｑ＆Ａデータ４１０は、Ｑ＆ＡＩＤ４１１、履歴ＩＤ４１２、Ｑ４１３、及びＡ４１４の項目を有する。

Ｑ＆ＡＩＤ４１１は、Ｑ＆Ａ抽出部２１０が生成したＱ＆Ａを一意に特定するための識別子であって、生成されたＱ＆Ａごとに一意に割り当てられた識別子が記載される。履歴ＩＤ４１２は、Ｑ＆Ａがどの応対履歴から生成されたかを特定するための、応対履歴の識別子である。履歴ＩＤ４１２に記載される応対履歴の識別子は、応対履歴文書３１０の履歴ＩＤ３１１と対応する。

Ｑ４１３には、生成されたＱ＆Ａのうちの質問（Ｑ）に相当する文がテキスト形式で記載される。Ａ４１４には、生成されたＱ＆Ａのうちの応答（Ａ）に相当する文がテキスト形式で記載される。

なお、図８においてＱ＆ＡＩＤ４１１＝「２」，「３」のレコードに示す例のように、１つの履歴ＩＤ４１２＝「ＩＤ２」から複数のＱ＆Ａ（Ｑ４１３、Ａ４１４）が生成される場合もある。

図９は、選択Ｑ＆Ａデータ４２０の具体例を示す図である。選択Ｑ＆Ａデータ４２０は、システム利用者端末５０からのＱ＆Ａの検索要求に応じて生成Ｑ＆Ａデータ４１０から提供されたＱ＆Ａのうち、システム利用者によって利用（選択）されたＱ＆Ａの選択結果を記録したデータである。図９の場合、選択Ｑ＆Ａデータ４２０は、検索ＩＤ４２１、入力Ｑ４２２、表示Ｑ＆ＡＩＤ４２３、及び選択結果４２４の項目を有する。

検索ＩＤ４２１は、Ｑ＆Ａの検索要求を一意に特定するための識別子であって、システム利用者端末５０から要求されたＱ＆Ａの検索要求ごとに、一意な識別子が割り当てられる。入力Ｑ４２２には、Ｑ＆Ａの検索要求において検索条件として入力された質問（Ｑ）が記録される。表示Ｑ＆ＡＩＤ４２３には、Ｑ＆Ａの検索条件に合致してシステム利用者端末５０に提供（表示）されたＱ＆Ａの識別子である。表示Ｑ＆ＡＩＤ４２３に用いられる識別子は、生成Ｑ＆Ａデータ４１０におけるＱ＆ＡＩＤ４１１の識別子と対応する。

選択結果４２４は、Ｑ＆Ａの検索要求に対して表示されたＱ＆Ａ（すなわち、表示Ｑ＆ＡＩＤ４２３で特定されるＱ＆Ａ）が、システム利用者によって選択されたか否かを示す情報である。選択結果４２４には、例えば、選択されたことを意味する「Ｙ」、または選択されなかったことを意味する「Ｎ」が記載される。

なお、Ｑ＆Ａの検索要求に対する表示では、図９における１番目及び２番目のレコードのように、１つの入力Ｑ４２２（検索ＩＤ４２１＝「検索１」）から、複数のＱ＆Ａ（表示Ｑ＆ＡＩＤ４２３＝「Ｑ＆Ａ１」，「Ｑ＆Ａ３」）を表示することができる。また、図９における４番目のレコードでは、入力Ｑ４２２＝「－（表示）」とされているが、これは、Ｑ＆Ａの検索要求において質問が入力されなかったことを意味する。この場合、Ｑ＆Ａ抽出装置２０は、生成Ｑ＆Ａデータ４１０に保持されているＱ＆Ａのうちから、利用頻度が高いＱ＆Ａを表示するようにしてもよい。

（３）処理
図１０は、単語間スコア算出処理の処理手順例を示すフローチャートである。単語間スコア算出処理は、単語間スコア算出装置１０が単語間スコアを算出する処理であって、定期的に実行可能な他、様々なタイミングを別途、実行契機とすることができる。具体的な実行契機としては、例えば、応対履歴入力者端末３０からの応対履歴の入力によって応対履歴文書３１０が更新されたとき、システム管理者端末４０から単語間スコアの算出が要求されたとき、システム利用者端末５０からＱ＆Ａ抽出装置２０に対してＱ＆Ａの検索要求が行われたとき、等が考えられる。

図１０によればまず、文書内単語抽出部１２０が、応対履歴保持部１１０を参照し、応対履歴文書３１０に記録された応対履歴の文書を抽出し、抽出した文書にラベル付けをし、当該文書を文単位に分割する（ステップＳ１０１）。

次に、文書内単語抽出部１２０は、ステップＳ１０１で文単位に分割した応対履歴の文書から、関連を有する文の組み合わせ（Ｑ＆Ａ候補文）を抽出する（ステップＳ１０２）。

次に、文書内単語抽出部１２０は、ステップＳ１０２で抽出したＱ＆Ａ候補文を構成する各文に対して、単語辞書データ３２０を用いて、単語辞書データ３２０に記載された単語を検索し、該当する単語を抽出する（ステップＳ１０３）。ステップＳ１０３で抽出された単語は、例えば、文単位でリスト化される。

次いで、単語間スコア算出装置１０は、応対履歴文書３１０に含まれる各文書に対して、文書を１つずつ選択して、後述するステップＳ１０５～Ｓ１１０の処理を繰り返す（ステップＳ１０４）。処理対象の文書の選択は、例えば不図示の全体制御部によって実行される。

ステップＳ１０５では、増幅候補単語抽出部１３０が、ステップＳ１０４で選択された文書において、ステップＳ１０３で文書内単語抽出部１２０から入力されたリストに含まれる単語に対して、用語一覧データ３３０を用いて比較を行い、用語一覧データ３３０に記載された用語と一致する単語を、単語増幅部１４０が増幅する単語の候補（増幅候補単語）として抽出する。

次に、単語増幅部１４０が、ステップＳ１０５で抽出された増幅候補単語の単語（用語）ごとに、重要単語増幅リスト３４０に基づいて増幅回数を算出する増幅回数算出処理を実行する（ステップＳ１０６）。増幅回数算出処理の詳細は、図１１を参照しながら後述する。

次に、単語増幅部１４０は、増幅候補単語をステップＳ１０６で算出された増幅回数だけ繰り返して増幅した増幅リストを作成する（ステップＳ１０７）。なお、ステップＳ１０５において複数の単語が増幅候補単語として抽出された場合、ステップＳ１０６における増幅回数算出処理では、増幅候補単語に含まれる単語ごとに増幅回数が算出される。したがってこの場合、ステップＳ１０７における増幅リストの作成では、増幅候補単語に含まれる単語ごとに、個別の増幅回数に従って増幅リストが作成される。

次に、単語合成部１５０は、合成方法一覧データ３５０に指定された設定（合成方法３５１及び増幅要否３５２）に従って、単語増幅部１４０によって作成された増幅リストを応対履歴文書３１０（具体的には、応対履歴文書３１０に含まれる各文、各文書、あるいは全体文書）に合成する（ステップＳ１０８～Ｓ１１０）。

なお、図１０のステップＳ１０８～Ｓ１１０には、合成方法一覧データ３５０において合成方法３５１が「文単位」と指定される場合の処理手順例が示されている。この場合、具体的には、単語合成部１５０は、ステップＳ１０４で選択された文書から文を１つ選択し（ステップＳ１０８）、選択した文に、ステップＳ１０７で作成された増幅リストの内容（増幅回数の分だけ増幅された増幅候補単語）を追加し（ステップＳ１０９）、これらの処理をステップＳ１０４で選択された文書に含まれるすべての文に対して繰り返す（ステップＳ１１０）。

また、合成方法一覧データ３５０において合成方法３５１が「文書単位」と指定される場合には、単語合成部１５０は、上記のステップＳ１０８～Ｓ１１０の処理に替えて、ステップＳ１０４で選択された文書（応対履歴文書３１０の１文書）に対して、増幅リストに記載された単語（増幅回数の分だけ増幅された増幅候補単語）からなる文を追加すればよい。また、合成方法一覧データ３５０において合成方法３５１が「全体」と指定される場合には、単語合成部１５０は、上記のステップＳ１０８～Ｓ１１０の処理に替えて、応対履歴文書３１０に対して、増幅リストに記載された単語（増幅回数の分だけ増幅された増幅候補単語）からなる文書を追加すればよい。

そして、上記の何れの合成方法３５１の場合においても、応対履歴保持部１１０に保持される応対履歴文書３１０が、合成後の文、文書、または文書全体によって更新されるとしてもよい。

ステップＳ１１０が終了すると、単語間スコア算出装置１０（例えば不図示の全体制御部）は、ステップＳ１０２でＱ＆Ａ候補文が抽出された応対履歴文書に含まれる全ての文書について、ステップＳ１０５～Ｓ１１０の処理が実行されたかを確認し（ステップＳ１１１）、実行済みであると判断した場合に、ステップＳ１１２に進む。

ステップＳ１１２では、単語間スコア算出部１６０が、ステップＳ１５０で合成された単語（増幅回数の分だけ増幅された増幅候補単語）を含む文書群（すなわち、ステップＳ１０１～Ｓ１１１の処理後の応対履歴文書）から、単語と単語の組み合わせを作成し、各組み合わせについて、既定の計算方法で、単語間の関連度を示す単語間スコアを算出する。そして、単語間スコア算出部１６０は、ステップＳ１１２の算出結果によって、単語間スコアデータ３６０を更新する。以上の処理が完了すると、単語間スコア算出処理が終了する。

図１１は、増幅回数算出処理の処理手順例を示すフローチャートである。前述したように、図１１に示す増幅回数算出処理は、図１０のステップＳ１０６の処理に相当する。

なお、ステップＳ１０５では、増幅候補単語として複数の用語（単語でも規則でもよい）が抽出され得るが、各用語について、重要単語増幅リスト３４０において増幅に関する設定が異なる（用語適用文書数３４３、用語適用終了文書数３４４、または用語加重数３４５の少なくとも何れかの設定値が異なる）場合には、単語増幅部１４０は、上記用語ごとに、図１１の処理を繰り返し実行する。一方、増幅候補単語に含まれる複数の用語（単語でも規則でもよい）において、重要単語増幅リスト３４０における増幅に関する設定が共通する場合には、単語増幅部１４０は、図１１の処理を１回実行すればよい。

図１１によればまず、単語増幅部１４０は、応対履歴文書３１０に記録された文書数（ｎ）と、増幅候補単語における対象の用語（以後、対象用語）について重要単語増幅リスト３４０で指定された用語適用文書数３４３の値（Ｍ）と、を比較し、「ｎ≦Ｍ」であるか否かを判定する（ステップＳ２０１）。なお、文書数ｎは、予め定められた値ではなく、応対履歴保持部１１０に対する応対履歴の入力に従って、決定される値である。

ステップＳ２０１において「ｎ≦Ｍ」であった場合（ステップＳ２０１のＹＥＳ）、単語増幅部１４０は、対象用語の「増幅回数」に、対象用語について重要単語増幅リスト３４０で指定された用語加重数３４５の値（Ｔ）を設定し（ステップＳ２０２）、後述するステップＳ２１０に進む。

ステップＳ２０１において「ｎ＞Ｍ」であった場合（ステップＳ２０１のＮＯ）、ステップＳ２０３に進む。ステップＳ２０３では、単語増幅部１４０は、文書数（ｎ）と、対象用語について重要単語増幅リスト３４０で指定された用語適用終了文書数３４４の値（Ｅ）と、を比較し、「ｎ＜Ｅ」であるか否かを判定する。ステップＳ２０３において「ｎ＜Ｅ」であった場合は（ステップＳ２０３のＹＥＳ）、ステップＳ２０４に進む。一方、ステップＳ２０３において「ｎ≧Ｅ」であった場合（ステップＳ２０３のＮＯ）、単語増幅部１４０は、対象用語の「増幅回数」に「０」を設定し（ステップＳ２０９）、後述するステップＳ２１０に進む。

ステップＳ２０４では、単語増幅部１４０は、文書数ｎ、対象用語についての用語適用文書数Ｍ、用語適用終了文書数Ｅ、及び用語加重数Ｔを用いて、「（Ｅ－ｎ）×（Ｔ×Ｍ）／（Ｅ－Ｍ）」を計算し、その計算結果から小数点以下を切り捨てた値を「総回数（Ｌ）」とする。なお、特殊なケースとして、重要単語増幅リスト３４０において対象用語についての用語適用終了文書数３４４の値（Ｅ）が「∞」に設定されている場合は、総回数Ｌは、「Ｔ×Ｍ」で算出する。

図１２は、総回数のイメージを説明するための図である。図１２には、図１１のステップＳ２０４で総回数Ｌを算出するために使用される関係式「Ｌ＝（Ｅ－ｎ）×（Ｔ×Ｍ）／（Ｅ－Ｍ）」（但し、Ｌは小数点以下を切り捨て）について、横軸に文書数ｎを、縦軸に総回数Ｌをとって視覚化したグラフが示されている。なお、図１２において、文書数ｎが用語適用文書数Ｍ以下の場合は、ステップＳ２０１の分岐で「ＹＥＳ」と判定されてステップＳ２０４の関係式は適用されないため、破線で示されている。

図１２のグラフ内に実線で示したように、総回数Ｌの値は、文書数ｎが用語適用文書数Ｍを超えた後は、「Ｔ×Ｍ」から一次関数的に減少し、文書数が用語適用終了文書数Ｅとなったときに０となる。以降のステップＳ２０５～Ｓ２０９の処理においては、このようにして算出された総回数Ｌを基に、増幅回数が決定される。

図１１の説明に戻る。ステップＳ２０４の処理が終了した後、単語増幅部１４０は、総回数（Ｌ）を用語適用文書数（Ｍ）で除算し、その算出値から小数点以下を切り捨てた値を「標準増幅回数」とする。さらに、単語増幅部１４０は、標準増幅回数に用語適用文書数Ｍを乗算し、その算出値を「増幅予定回数」とする（ステップＳ２０５）。なお、上記の「総回数」、「標準増幅回数」、及び「増幅予定回数」は、対象用語の「増幅回数」を算出するために用いられる変数である。

次に、単語増幅部１４０は、対象用語の「増幅回数」を暫定的に「標準増幅回数」とする（ステップＳ２０６）。

次に、単語増幅部１４０は、「Ｌ－増幅予定回数≦文書番号」の関係が成立するか否かを判定する（ステップＳ２０７）。なお、「文書番号」とは、処理中の文書が、入力文書の何番目に出現するかを表す値であって、例えば応対履歴文書３１０の履歴ＩＤ３１１に基づいて得ることができる。

ステップＳ２０７において上記関係式が成立する場合（ステップＳ２０７のＹＥＳ）、単語増幅部１４０は、増幅回数を「１」加算し（ステップＳ２０８）、その後ステップＳ２１０に進む。一方、ステップＳ２０７において上記関係式が成立しない場合（ステップＳ２０７のＮＯ）には、ステップＳ２０８をスキップしてステップＳ２１０に進む。

なお、ステップＳ２０６～Ｓ２０８の処理は、標準増幅回数を直接用いて「増幅回数」を算出した場合に誤差が生じ得るという知見に基づいて、その誤差を調整するための処理の一例である。そのため、同様に誤差を調整可能な他の処理に置き換えられてもよい。

そしてステップＳ２１０では、単語増幅部１４０は、最終的な「増幅回数」を戻り値とし、当該対象用語に関する増幅回数算出処理を終了する。

なお、図１１では図示を省略したが、増幅回数算出処理において、処理対象の増幅候補単語が重要単語増幅リスト３４０に存在しない単語であった場合には、単語増幅部１４０は、単語増幅率（用語加重数Ｔ）、用語適用文書数Ｍ、及び用語適用終了文書数Ｅについて予め定めた所定の標準値を用いて、増幅回数を算出すればよい。

以上、図１１及び図１２に示したように増幅回数算出処理が実行されることにより、単語増幅部１４０によって算出される増幅候補単語の増幅回数は、文書数ｎが用語適用文書数Ｍを超えるまでは、所定値（具体的には、用語加重数Ｔ）が設定され、文書数ｎが用語適用文書数Ｍを超えて用語適用終了文書数Ｅに達するまでは、次第に減少し、文書数ｎが用語適用終了文書数Ｅ以上となった場合は、０となる。

そして、図１０に示した単語間スコア算出処理においては、予め用意された用語一覧データ３３０に登録された用語から増幅候補単語が抽出され、上述した特徴を有する増幅回数算出処理で算出された増幅回数に従って増幅された増幅候補単語が、応対履歴文書３１０の文書群（文、文書、または全体）に追加された上で、単語間スコアが算出される。すなわち、単語間スコア算出装置１０は、応対履歴文書３１０に入力された文書数ｎの変化に応じて、単語間スコアの算出において用語一覧データ３３０に登録された用語による影響の度合いを変化させることができる。

さらに、質問応答抽出システム１では、単語間スコア算出装置１０において単語間スコアが算出されてその算出結果が単語間スコアデータ３６０に記録された後、重要単語抽出部１７０が、単語間スコアデータ３６０に記載された単語の組み合わせと、Ｑ＆Ａ抽出装置２０のＱ＆Ａ保持部２２０が保持する選択Ｑ＆Ａデータ４２０に含まれる単語とに基づいて、選択されやすいＱ＆Ａに存在する単語を重要単語として抽出し、抽出結果を重要単語増幅リスト３４０に追加することができる。

重要単語抽出部１７０による処理では、具体的には例えば、ユーザが選択した有益なＱ＆Ａ（選択Ｑ＆Ａデータ４２０）に含まれる単語を、重要単語増幅リスト３４０に追加することにより、単語間スコアの算出において当該単語を増幅の対象とすることができる。また例えば、当該単語が既に重要単語増幅リスト３４０に登録されている場合は、その基本的な増幅回数を表す用語加重数３４５の値（Ｔ）を増加させるようにしてもよいし、用語適用終了文書数３４４の値（Ｅ）を増加させるようにしてもよい。さらに、上記の値Ｔまたは値Ｅの変更は、重要単語抽出部１７０を実現するプログラムによって実行可能とするだけでなく、ユーザ指定で実行可能としてもよい。

このような処理が行われることにより、質問応答抽出システム１は、単語間スコアの算出結果とシステム利用者によるＱ＆Ａの選択結果の双方を重要単語増幅リスト３４０にフィードバックすることが可能となり、単語間スコアの算出における精度を自動的に高めていく効果が得られる。

（４）まとめ
以上に説明したように、本実施形態に係る単語間スコア算出装置１０によれば、過去の応対記録（応対履歴文書３１０）の文書数が少ない場合（本例では、文書数ｎが用語適用文書数Ｍ以下の場合）は、用語一覧（用語一覧データ３３０）に登録された関連用語を重要視して、応対履歴文書３１０に含まれる単語間の関連度を示す単語間スコアを算出することができる。

上記の場合、単語間スコア算出装置１０は、データ量（文書数）が少ない間は、用語一覧データ３３０に登録され、かつ文書内にも存在していた所定の単語（増幅候補単語）を、当該単語の関連度合いの設定（重要単語増幅リスト３４０）に基づいて、文中に増幅させて追加する。すなわち、単語間スコア算出装置１０は、応対履歴文書３１０とは無関係（あるいは関係性が弱い）単語が用語一覧データ３３０から選択されて文中に追加されることを防止し、応対履歴文書３１０において意味のある単語だけを追加候補とすることができる。その結果、単語間スコア算出装置１０は、データ量が少ない応対履歴文書３１０であっても、精度良く単語間の関連性を算出することができる。

なお、用語一覧データ３３０には、システム管理者が関連語句を列挙したリストだけでなく、既に完成している用語集やマニュアルの索引など、単語間の関連性を定義することなく、様々な用語リストを利用することができるため、システム管理者による追加や変更等が容易である。

また、本実施形態に係る単語間スコア算出装置１０によれば、過去の応対記録（応対履歴文書３１０）の文書数が増加してきた場合（本例では、文書数ｎが用語適用文書数Ｍを超えて用語適用終了文書数Ｅに到達するまでの間）は、用語一覧（用語一覧データ３３０）に登録された関連用語による影響を徐々に抑制しながら、応対履歴文書３１０に含まれる単語間の関連度を示す単語間スコアを算出することができる。またさらに、本実施形態に係る単語間スコア算出装置１０によれば、過去の応対記録（応対履歴文書３１０）の文書数が所定数を超えるまでに増加した場合（本例では、文書数ｎが用語適用終了文書数Ｅ以上になった場合）には、用語一覧（用語一覧データ３３０）に登録された関連用語による影響を排除して、単語間スコアを算出することもできる。応対記録の蓄積が増えた場合には、応対履歴文書３１０から判断可能な単語間の関係性の精度が高まることから、上記のように用語一覧の影響を抑えていくことにより、現実的な応対記録に沿った単語間の関連付けが可能となる。この結果、本実施形態に係る単語間スコア算出装置１０は、入力データ量が初期状態に比べて増大した場合に用語一覧の内容に偏って単語間の関連付けが行われ易くなる、という従来技術の課題を解決し、精度の高い単語間の関連付けを実現することができる。

したがって、本実施形態に係る単語間スコア算出装置１０は、過去の応対記録（応対履歴文書３１０）の文書数が少ない場合にも、増加した場合にも、それぞれ高い精度で単語間の関連度を算出することができるものであり、蓄積されるデータ量（文書数）の変化に応じて、当該データに含まれる単語間の関連度（単語間スコア）を適切に算出することができ、この関連度を用いることにより好適な関連語句を抽出することができる。

また、本実施形態に係る単語間スコア算出装置１０では、単語間スコアを算出するために、システム管理者が用語一覧データ３３０と重要単語増幅リスト３４０の制御フラグを設定する必要があるが、上述したように用語一覧データ３３０は、既存の用語集等を利用することができるため、システム管理者に掛かる労力は抑えられる。例えば、用語一覧データ３３０が継続的にメンテナンスされないとしても、蓄積される文書量が増えれば用語一覧を参照しなくなるため、システム管理者の労力は大きく低減される。また例えば、仮に用語一覧データ３３０による用語のカバー率が低い場合でも、単語間スコア算出装置１０は、既存技術と同程度に、若しくは、低いカバー率の分が加味されて、単語間の関連度を算出することが可能である。また、システム管理者は、重要単語増幅リスト３４０のパラメータを調整することにより、単語間スコアの算出において用語一覧データ３３０が与える影響度合いを調整することができるため、管理が容易となる。

また、本実施形態に係る単語間スコア算出装置１０では、図４の用語一覧データ３３０、及び図５の重要単語増幅リスト３４０で例示したように、単語だけでなく、正規表現等の規則による用語の登録を可能としている。このため、増幅候補単語を抽出する際には、単語が完全に一致する用語だけでなく、規則に一致する用語も抽出することができ、単語間スコアを算出する利用範囲を広げる効果に期待できる。

そして、本実施形態に係る質問応答抽出システム１は、上述した様々な効果を奏する単語間スコア算出装置１０と、Ｑ＆Ａ抽出装置２０とを備えることにより、システム利用者によるＱ＆Ａの検索要求に対して、蓄積されるデータ量の変化に応じて適切に算出された単語間の関連度（単語間スコア）に基づいて、好適なＱ＆Ａの組み合わせを抽出し、提示することができる。

またさらに、本実施形態に係る質問応答抽出システム１は、Ｑ＆Ａの検索要求に応じて提示されたＱ＆Ａの組み合わせのうち、システム利用者が選択したＱ＆Ａの情報をＱ＆Ａ保持部２２０に保持し、単語間スコア算出装置１０の重要単語抽出部１７０による重要単語の抽出に利用することによって、単語間スコアの算出結果とシステム利用者によるＱ＆Ａの選択結果の双方を重要単語増幅リスト３４０にフィードバックすることが可能となり、単語間スコアの算出における精度を自動的に高めていくことができる。

なお、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

例えば、上記した実施形態において図１１及び図１２を参照しながらした説明では、文書数ｎが用語適用文書数Ｍを超える場合に、用語一覧の影響を順次減らすとしたが（図１１のステップＳ２０３～Ｓ２０８参照）、変形例として、用語一覧の影響を、「文書数ｎが用語適用文書数Ｍであるときと同様の状態等に固定して変更しない」としてもよいし、あるいは、「増幅回数は減少させずに、増幅リストを追加する対象の文書を分散させる（例えば、次第に適用する文書を少なくする等）」としてもよい。

また例えば、上記した実施形態において、図１１のステップＳ２０５では、標準増幅回数の算出に「総回数Ｌ／用語適用文書数Ｍ」の計算式を用い、増幅予定回数の算出に「標準増幅回数×用語適用文書数Ｍ」の計算式を用いたが、変形例として、各計算式において「用語適用文書数Ｍ」の代わりに「文書数ｎ」を用いるようにしてもよい。

また、上記した実施形態では、Ｑ＆Ａを抽出するシステムを説明したが、本発明に係る単語間スコア算出装置及びその方法は、Ｑ＆Ａの抽出への利用に限定されるものではなく、データ量が比較的少ない場合でも、単語間の関係性を算出する技術全般に応用することができる。

具体的には例えば、本発明に係る単語間スコア算出装置を研究分野の専門家を検索するシステムに利用することが想定される。当該システムを構築する場合の簡易な構成としては、例えば、単語間スコア算出装置１０は、応対履歴文書３１０に相当する入力文書として論文を蓄積し、用語一覧データ３３０に大学の教授または助教授の名前リストを登録し、論文の著者名とアブストラクトに含まれる単語との間で単語間スコアを算出する。さらに、Ｑ＆Ａ抽出装置２０に相当する装置が、専門家の検索時に「分野名」を検索語句として受け付け、検索語句の「分野名」に対して高い単語間スコアを有する「著者名」を検索結果とするように構成する。以上のように構成された専門家検索システムでは、蓄積された論文が比較的少ない場合には、用語一覧の影響から、専門家の検索結果に、教授や助教授が優先して選択されるため、データ量が少ないなかでも信頼性が高いと想定される専門家を検索結果として提供することができる。一方、蓄積された論文が増えてくると、用語一覧の影響が減少し、教授または助教授以外でも、論文を数多く執筆している専門家が上位に選択されやすくなるため、実際のデータに沿って信頼性の高い検索結果を提供することができる。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、図面において制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

１質問応答抽出システム
１０単語間スコア算出装置
２０Ｑ＆Ａ抽出装置
３０応対履歴入力者端末
４０システム管理者端末
５０システム利用者端末
６０情報処理装置
６１入力装置
６２出力装置
６３メモリ
６４記憶装置
６５ＣＰＵ
６６Ｉ／Ｆ
６７バス
１１０応対履歴保持部
１２０文書内単語抽出部
１３０増幅候補単語抽出部
１４０単語増幅部
１５０単語合成部
１６０単語間スコア算出部
１７０重要単語抽出部
１８０データ保持部
２１０Ｑ＆Ａ抽出部
２２０Ｑ＆Ａ保持部
３１０応対履歴文書
３２０単語辞書データ
３３０用語一覧データ
３４０重要単語増幅リスト
３５０合成方法一覧データ
３６０単語間スコアデータ
４１０生成Ｑ＆Ａデータ
４２０選択Ｑ＆Ａデータ

Claims

１以上の文書が蓄積された文書データに含まれる単語間の関連度を算出する単語間スコア算出装置であって、
外部から入力される前記文書を前記文書データに蓄積し保持する第１データ保持部と、
所定の用語が記載された用語一覧データを保持する第２データ保持部と、
前記用語一覧データに記載された用語に該当し、かつ、前記文書データを構成する前記文書に含まれる単語である増幅候補単語を、繰り返し増やして前記文書データに追加する合成処理を実行可能な単語合成部と、
前記単語合成部による処理後の前記文書データを用いて、当該文書データに含まれる単語間の関連度を所定の算出方法で算出する単語間スコア算出部と、
を備え、
前記文書データに蓄積された文書量が第１の所定量よりも少ない場合に、前記単語合成部が前記文書データに前記増幅候補単語を追加する
ことを特徴とする単語間スコア算出装置。
前記文書データに蓄積された文書量が前記第１の所定量以上の場合、前記単語合成部は、前記文書量が前記第１の所定量よりも少ない場合よりも、前記文書データに対する前記増幅候補単語の追加の度合いを抑制する
ことを特徴とする請求項１に記載の単語間スコア算出装置。
前記文書データに蓄積された文書量が前記第１の所定量に近づくにつれ、前記単語合成部は、前記文書データに対する前記増幅候補単語の追加の度合いを徐々に抑制する
ことを特徴とする請求項１に記載の単語間スコア算出装置。
前記第２データ保持部は、前記用語一覧データに記載された用語ごとに当該用語を増やす増幅の設定を定めた重要単語増幅リストをさらに保持し、
前記文書データに蓄積された文書量と前記重要単語増幅リストとに基づいて前記増幅候補単語ごとの増幅回数を決定し、当該増幅候補単語を前記決定した増幅回数だけ繰り返し増やしてなる増幅リストを作成する単語増幅部をさらに備え、
前記単語合成部は、前記単語増幅部が作成した前記増幅リストを前記文書データに合成する
ことを特徴とする請求項１に記載の単語間スコア算出装置。
前記文書データに蓄積された文書量が前記第１の所定量以上の場合、
前記単語増幅部は、前記増幅候補単語ごとに前記増幅回数を一定に維持する
ことを特徴とする請求項４に記載の単語間スコア算出装置。
前記文書データに蓄積された文書量が第２の所定量を超えて前記第１の所定量に達するまでの間、
前記単語増幅部は、前記増幅候補単語ごとに前記増幅回数を徐々に抑制する
ことを特徴とする請求項４に記載の単語間スコア算出装置。
前記文書データに蓄積された文書量が前記第２の所定量以下である場合、
前記単語増幅部は、前記増幅候補単語ごとの前記増幅回数を前記重要単語増幅リストで定められた所定回数とする
ことを特徴とする請求項６に記載の単語間スコア算出装置。
前記用語一覧データに記載される各用語は、単語または所定の規則表現である
ことを特徴とする請求項１に記載の単語間スコア算出装置。
前記単語合成部は、予め定められた合成方法に基づいて、前記文書データの全体、前記増幅候補単語を含む前記文書、または前記増幅候補単語を含む文の少なくとも何れかを対象として、前記増幅リストを追加する
ことを特徴とする請求項４に記載の単語間スコア算出装置。
前記単語間スコア算出部によって前記関連度が算出された単語のうち、ユーザによって選択された文にも含まれる重要単語について、当該重要単語が前記増幅候補単語に選択されたときに前記増幅リストで増やされる度合いを高めるように、前記重要単語増幅リストにおける設定を変更する、重要単語抽出部をさらに備える
ことを特徴とする請求項４に記載の単語間スコア算出装置。
１以上の文書が蓄積された文書データから、質問文と応答文との組み合わせを抽出する質問応答抽出システムであって、
前記文書データに含まれる単語間の関連度を算出する単語間スコア算出装置と、
前記単語間スコア算出装置によって算出された前記関連度を用いて、前記文書データに含まれる前記文書から、前記関連度が高い単語の組み合わせを有する質問文と応答文との組み合わせを抽出するＱ＆Ａ抽出装置と、
を備え、
前記単語間スコア算出装置は、
質問文とその応答文とを含む前記文書を前記文書データに蓄積し保持する第１データ保持部と、
所定の用語が記載された用語一覧データを保持する第２データ保持部と、
前記用語一覧データに記載された用語に該当し、かつ、前記文書データを構成する前記文書に含まれる単語である増幅候補単語を、繰り返し増やして前記文書データに追加する合成処理を実行可能な単語合成部と、
前記単語合成部による処理後の前記文書データを用いて、当該文書データに含まれる単語間の関連度を所定の算出方法で算出する単語間スコア算出部と、
を有し、
前記文書データに蓄積された文書量が第１の所定量よりも少ない場合に、前記単語合成部が前記文書データに前記増幅候補単語を追加する
ことを特徴とする質問応答抽出システム。
１以上の文書が蓄積された文書データに含まれる単語間の関連度を算出する単語間スコア算出装置による単語間スコア算出方法であって、
前記単語間スコア算出装置は、所定の用語が記載された用語一覧データを保持しており、
前記単語間スコア算出装置が、外部から入力される前記文書を前記文書データに蓄積し保持するデータ保持ステップと、
前記単語間スコア算出装置が、前記用語一覧データに記載された用語に該当し、かつ、前記文書データを構成する前記文書に含まれる単語である増幅候補単語を、繰り返し増やして前記文書データに追加可能な単語合成ステップと、
前記単語間スコア算出装置が、前記単語合成ステップの実行後の前記文書データを用いて、当該文書データに含まれる単語間の関連度を所定の算出方法で算出する単語間スコア算出ステップと、
を備え、
前記文書データに蓄積された文書量が第１の所定量よりも少ない場合に、前記単語合成ステップにおいて前記単語間スコア算出装置が前記文書データに前記増幅候補単語を追加する
ことを特徴とする単語間スコア算出方法。