JP2006343925A - 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム - Google Patents

関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP2006343925A
JP2006343925A JP2005167897A JP2005167897A JP2006343925A JP 2006343925 A JP2006343925 A JP 2006343925A JP 2005167897 A JP2005167897 A JP 2005167897A JP 2005167897 A JP2005167897 A JP 2005167897A JP 2006343925 A JP2006343925 A JP 2006343925A
Authority
JP
Japan
Prior art keywords
related word
word dictionary
keyword
answer
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005167897A
Other languages
English (en)
Inventor
Tomoko Okuma
智子 大熊
Hiroshi Masuichi
博 増市
Hirohito Shibata
博仁 柴田
Hiroki Yoshimura
宏樹 吉村
Daigo Sugihara
大悟 杉原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005167897A priority Critical patent/JP2006343925A/ja
Publication of JP2006343925A publication Critical patent/JP2006343925A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 ユーザ固有の関連語辞書の生成、更新処理を効率的に実行可能とした構成を実現する。
【解決手段】 質問応答システムにおいてユーザの質問から重要語として抽出されたキーワードと、キーワードに基づく検索処理の結果から抽出された回答候補と回答候補の適正情報を、関連語辞書修正手段に入力し、これらの入力情報に基づいて関連語辞書の修正処理を実行する。例えば、回答候補の適正情報に基づいて、キーワードと適正な回答各々に対応する語相互の関連度を上昇させ、キーワードと不適正な回答各々に対応する語相互の関連度を低下させる処理などを実行する。このような関連語辞書修正処理により、質問応答システムを利用したユーザの興味、関心分野に特化したユーザ固有の関連語辞書が生成または更新される。
【選択図】 図1

Description

本発明は、関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラムに関する。さらに詳細には、辞書を利用するユーザの嗜好などに対応したユーザ固有の特性を持つ関連語辞書を効率的に生成する関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラムに関する。
キーワードの同義語や類義語、上位概念語などといった関連語情報を収集した関連語辞書というものがある。関連語を集めた関連語辞書は、さまざまな局面で有用である。例えば、関連語辞書を用いたアプリケーションとしては、かな漢字変換、形態素解析、翻訳支援ソフトでの辞書登録、翻訳ソフト、文章校正支援(誤り訂正、類義語を提示)、文書自動分類などの処理、さらに、文書検索における精度向上のために利用されたり、その他、データベース検索、自然言語処理検索、圧縮、曖昧性解消、重要語抽出、要約、文字認識、音声認識など、様々なデータ処理において関連語辞書は利用される。
高品質な関連語辞書を作成する最適の手段は、専門家が人手で辞書を作成することであるが、それには莫大なコストが発生する。そこで、効率的な関連語辞書の自動構築方法が、いくつか提案されている。例えば、特許文献1には、ある索引語がどの文書で利用されているかを示す指標として、対応する索引語の各々の文書での利用頻度をベクトル距離として表現し、このベクトル距離で索引語間の類似度を規定し、一定の類似度以上の関連語を集めることにより、関連語と関連度の組の集合を関連語辞書に登録する手法を開示している。
また、特許文献2は、語の現れ方のパターンを抽出することによって関連語辞書を作成する手法を開示しており、さらに、特許文献3には、共起関係に基づいてシソーラスを構築する際、単なる共起関係ではなく、文法的、意味的な性質(「動詞と目的語」「修飾語と被修飾語」の関係など)を考慮してシソーラスを構築する手法を開示している。
上記の従来技術はいずれも、一般的な「常識ベース」と言われるような関連語辞書を対象としたものである。しかし、実世界では個人によって概念が異なることは頻繁にあることである。それを受けて、個人に特化した辞書を作成することを想定した関連語辞書作成技術を開示した従来技術として特許文献4がある。特許文献4は、個人のシソーラスから動詞と名詞の係り受けを抽出し、この抽出データなどに基づいて関連語辞書を作成する手法を提案している。
特開平7−114572号公報 特開平8−77204号公報 特開平9−134360号公報 特開平10−207910号公報
個人に特化した関連語辞書は、各個人の実行する文書作成処理や検索処理において、より有効に利用されることが予測される。従って、上述の特許文献4に記載のような、個人に特化した辞書の作成処理構成は有用な技術である。特許文献4に記載の辞書作成処理においては、個人の作成あるいは取得した大量の文書に基づくシソーラスから動詞と名詞の係り受けを自動抽出し辞書に登録するものである。しかし、大量の文書から語の自動抽出処理を行なう場合、例えば抽出語が複数の意味を持つ語、すなわち多義性を有する語であった場合、その語のどの意味がその個人が必要とした意味であるのか、馴染みのある意味であるのかなどの特定が困難であり、結果として、その個人にとってほとんど不要な意味を持つ語までを辞書に登録してしまうといった問題が発生する。
また、従来の自動化手法では抽出対象となる文書が大量、不特定であるため、そこから抽出された語(名詞、動詞等の自立語)が辞書の項目として相応しいかどうかは保証されていないという問題もある。
本発明は、これらの問題点に鑑みてなされたものであり、関連語辞書の作成、更新において、テキストなどから抽出された語が複数の意味を持つ場合においても、どの意味が、辞書を利用するユーザにとって有用な意味であるかを自動的に判別し、ユーザの必要とする意味を持つ語を優先的に関連語辞書に登録し、また関連度情報を設定、更新することを可能とし、ユーザ個々の興味、関心分野を反映したユーザに特化した関連語辞書を作成可能とした関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラムを提供することを目的とする。
本発明の第1の側面は、
関連語辞書の作成または更新処理を実行する関連語辞書作成装置であり、
ユーザの質問から重要語としてのキーワードを抽出する質問解析手段と、
前記キーワードに基づく検索処理を実行する検索手段と、
前記検索手段による検索結果から前記質問に対する回答候補を抽出する回答候補抽出手段と、
前記回答候補抽出手段の抽出した回答候補の適正情報を取得する回答候補選択手段と、
前記キーワードおよび回答候補および該回答候補の適正情報とを入力し、入力情報に基づく関連語辞書の修正処理を実行する関連語辞書修正手段とを有し、
前記関連語辞書修正手段は、
関連語辞書の設定情報としての前記キーワードおよび回答候補との関連度情報を、前記回答候補の適正情報に基づいて修正または新規設定する処理を実行し、利用ユーザに特化した関連語辞書の生成または更新処理を実行する構成を有することを特徴とする関連語辞書作成装置にある。
さらに、本発明の関連語辞書作成装置の一実施態様において、前記関連語辞書修正手段は、関連語辞書における前記キーワードおよび回答候補との関連度情報の修正処理として、前記回答候補の適正情報に基づいて、キーワードと適正な回答各々に対応する語相互の関連度を上昇させる処理と、キーワードと不適正な回答各々に対応する語相互の関連度を低下させる処理とを実行する構成であることを特徴とする。
さらに、本発明の関連語辞書作成装置の一実施態様において、前記関連語辞書修正手段は、関連語辞書における前記キーワードおよび回答候補との関連度情報の修正処理として、前記回答候補の適正情報に基づいて、キーワードと適正な回答とに共通して辞書に登録された関連語について、キーワードに対応する語と当該関連語との関連度を上昇させる処理と、キーワードと不適正な回答とに共通して辞書に登録された関連語について、キーワードに対応する語と当該関連語との関連度を低下させる処理と、を実行する構成であることを特徴とする。
さらに、本発明の第2の側面は、
関連語辞書の作成または更新処理を実行する関連語辞書作成装置であり、
ユーザのスキャン文書から重要語としてのキーワードを抽出する手段と、
前記キーワードを入力し、入力情報に基づく関連語辞書の修正処理を実行する関連語辞書修正手段とを有し、
前記関連語辞書修正手段は、
関連語辞書における前記キーワードに対応する語相互間の関連度情報を修正する処理を実行し、利用ユーザに特化した関連語辞書の生成または更新処理を実行する構成を有することを特徴とする関連語辞書作成装置にある。
さらに、本発明の第3の側面は、
関連語辞書の作成または更新処理を実行する関連語辞書作成方法であり、
ユーザの質問から重要語としてのキーワードを抽出する質問解析ステップと、
前記キーワードに基づく検索処理を実行する検索ステップと、
前記検索ステップにおける検索結果から前記質問に対する回答候補を抽出する回答候補抽出ステップと、
前記回答候補抽出ステップにおいて抽出した回答候補の適正情報を取得する回答候補選択ステップと、
前記キーワードおよび回答候補および該回答候補の適正情報とを入力し、入力情報に基づく関連語辞書の修正処理を実行する関連語辞書修正ステップとを有し、
前記関連語辞書修正ステップは、
関連語辞書の設定情報としての前記キーワードおよび回答候補との関連度情報を、前記回答候補の適正情報に基づいて修正または新規設定する処理を実行し、利用ユーザに特化した関連語辞書の生成または更新処理を実行することを特徴とする関連語辞書作成方法にある。
さらに、本発明の関連語辞書作成方法の一実施態様において、前記関連語辞書修正ステップは、関連語辞書における前記キーワードおよび回答候補との関連度情報の修正処理として、前記回答候補の適正情報に基づいて、キーワードと適正な回答各々に対応する語相互の関連度を上昇させる処理と、キーワードと不適正な回答各々に対応する語相互の関連度を低下させる処理とを実行することを特徴とする。
さらに、本発明の関連語辞書作成方法の一実施態様において、前記関連語辞書修正ステップは、関連語辞書における前記キーワードおよび回答候補との関連度情報の修正処理として、前記回答候補の適正情報に基づいて、キーワードと適正な回答とに共通して辞書に登録された関連語について、キーワードに対応する語と当該関連語との関連度を上昇させる処理と、キーワードと不適正な回答とに共通して辞書に登録された関連語について、キーワードに対応する語と当該関連語との関連度を低下させる処理とを実行することを特徴とする。
さらに、本発明の第4の側面は、
関連語辞書の作成または更新処理を実行する関連語辞書作成方法であり、
ユーザのスキャン文書から重要語としてのキーワードを抽出するステップと、
前記キーワードを入力し、入力情報に基づく関連語辞書の修正処理を実行する関連語辞書修正ステップとを有し、
前記関連語辞書修正ステップは、
関連語辞書における前記キーワードに対応する語相互間の関連度情報を修正する処理を実行し、利用ユーザに特化した関連語辞書の生成または更新を行なうステップであることを特徴とする関連語辞書作成方法にある。
さらに、本発明の第5の側面は、
関連語辞書の作成または更新処理をコンピュータ上において実行させるコンピュータ・プログラムであり、
ユーザの質問から重要語としてのキーワードを抽出する質問解析ステップと、
前記キーワードに基づく検索処理を実行する検索ステップと、
前記検索ステップにおける検索結果から前記質問に対する回答候補を抽出する回答候補抽出ステップと、
前記回答候補抽出ステップにおいて抽出した回答候補の適正情報を取得する回答候補選択ステップと、
前記キーワードおよび回答候補および該回答候補の適正情報とを入力し、入力情報に基づく関連語辞書の修正処理を実行する関連語辞書修正ステップとを有し、
前記関連語辞書修正ステップは、
関連語辞書の設定情報としての前記キーワードおよび回答候補との関連度情報を、前記回答候補の適正情報に基づいて修正または新規設定する処理を実行し、利用ユーザに特化した関連語辞書の生成または更新処理を実行することを特徴とするコンピュータ・プログラムにある。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、CDやFD、MOなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の構成によれば、質問応答システムにおいてユーザの質問から重要語として抽出されたキーワードと、キーワードに基づく検索処理の結果から抽出された回答候補と回答候補の適正情報を、関連語辞書修正手段に入力し、これらの入力情報に基づいて関連語辞書の修正処理を実行する。例えば、回答候補の適正情報に基づいて、キーワードと適正な回答各々に対応する語相互の関連度を上昇させ、キーワードと不適正な回答各々に対応する語相互の関連度を低下させる処理を行い、さらに、キーワードと適正な回答とに共通して辞書に登録された関連語について、キーワードに対応する語と関連語との関連度を上昇させる処理や、キーワードと不適正な回答とに共通して辞書に登録された関連語について、キーワードに対応する語と当該関連語との関連度を低下させる処理などを実行する。このような関連語辞書修正処理により、質問応答システムを利用したユーザの興味、関心分野に特化したユーザ固有の関連語辞書が生成または更新される。
以下、図面を参照しながら本発明の実施形態に係る関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラムの詳細について説明する。
図1は、本発明の関連語辞書作成装置100の構成を示す図である。本発明の関連語辞書作成装置100は、質問応答システム部110と、関連語辞書管理部120を有する。質問応答システム部110は、質問文入力手段111、質問文解析手段112、関連記事検索手段113、回答候補抽出手段114、回答候補選択手段115、回答出力手段116を有し、関連語辞書管理部120は、関連語辞書修正手段121と、関連語辞書保持部122を有する。
質問応答システム部110は、ネットワーク200に接続されている。ネットワーク200の構成例について図2を参照して説明する。図2に示すネットワーク200は、インターネットやイントラネットなどのネットワークである。ネットワーク200には、キーワードや質問文に基づくデータ検索、回答取得を実行するユーザ端末としてのクライアント201−1〜n、クライアントからの質問に対する回答を取得するための知識源としてのWebページを提供する様々なWebページ提供サーバ202A〜Nやデータベース203a〜nが接続されている。本発明の関連語辞書作成装置100もクライアント端末の1つであり、関連語辞書作成装置100の質問応答システム部110は、Webページ提供サーバ202A〜Nやデータベース203a〜nを知識源として利用して質問に対する回答を取得する。
Webページ提供サーバ202A〜Nは、WWW(World Wide Web)システムによる公開ページとしてWebページを提供する。なお、Webページは、Webブラウザに表示されるデータ集合であり、テキストデータやHTMLによるレイアウト情報、文書中に埋め込まれた画像や音声、動画などによって構成される。
図1に戻り、本発明の関連語辞書作成装置100の各構成要素の実行する処理について、順次説明する。まず、質問応答システム部110の各構成要素の処理について説明する。質問応答システム部110は、前述したようにネットワーク200に接続され、ネットワーク200に接続されたWebページ提供サーバやデータベースを情報源として、質問に対する回答を取得する。以下、質問文入力手段111、質問文解析手段112、関連記事検索手段113、回答候補抽出手段114、回答候補選択手段115、回答出力手段116の実行する各処理について説明する。
[質問文入力手段]
質問文入力手段111は、ユーザによる質問文(入力質問)を入力する手段である。以下では、具体的な質問例として、
(入力質問)「最近、LSIを採用したのはどの会社ですか?」
という質問が入力されたと想定して、以下、質問応答システム部110における各手段の処理について説明する。
[質問文解析手段]
質問文解析手段112は、入力質問の解析処理を実行し、質問文から検索に適用するためのキーワードを抽出し、さらに、質問に対する回答の属性を推定するための質問タイプの特定処理を実行する。キーワード抽出処理には、例えば公知の重要語抽出手法を適用する。具体的には、TF/IDF値を利用して、質問文の構成ワードのスコアを算出してキーワードを抽出する。
TF/IDFは、ターム頻度[TF]と、インバース・ドキュメント頻度[IDF]に基づくワードの評価処理である。ターム頻度[TF]は、各ワード[A]の出現頻度[TF(term frequency)]であり、インバース・ドキュメント頻度[IDF]は、例えば、
N:全ドキュメント数
f:ワード[A]を含むコンテンツ数
としたとき、
IDF=log(N/f)
として求められる値である。
すなわち、インバース・ドキュメント頻度[IDF]は、あるワードを含むコンテンツの、全コンテンツ数に対する存在割合の逆数に基づく値として算出される。これは、あるワードが含まれるコンテンツが全コンテンツに対して少ない場合は、そのコンテンツの価値が高いという考え方に基づいて算出される値である。
例えば、質問文解析手段112は、質問文を構成する各ワードについて、ターム頻度[TF]と、インバース・ドキュメント頻度[IDF]を算出し、例えば、
ワードスコア=TF×IDFとして各ワードのスコアを算出し、予め定められた閾値以上のスコアを持つワードを検索に適用するキーワードとして選択する。
質問文解析手段112は、例えば、上述のTF/IDF値を利用して入力質問文から重要語としてのキーワードを抽出する。なお、この他の方法を適用したキーワード抽出処理を実行する構成としてもよい。
具体的な質問例として、
(入力質問)「最近、LSIを採用したのはどの会社ですか?」
という質問がクライアントから入力された場合、
質問文解析手段112は、前述のTF/IDF値を利用して、
「LSI」、「採用」をキーワードとして抽出し、また、質問文に含まれる疑問指示詞「どの」が「会社」に前接していることから、質問タイプは「会社」とする。
[関連記事検索手段]
関連記事検索手段113は、質問文解析手段112が質問文の解析によって選択したキーワードを適用した検索処理を実行する。検索式は、例えば各キーワードのTF/IDF値に基づいて生成する。最も簡単な検索式としては、例えば、
LSI AND 採用、
といったAND式でキーワードを連結した検索式が適用される。
関連記事検索手段113は、このような検索式に基づいて検索処理を実行する。例えば、ネットワークに接続されたWebページ提供サーバの提供するWebページやデータベースを情報源とした検索処理を実行してキーワードを含むドキュメントを取得する。
ここでは、
検索式:LSI AND 採用、
に基づいて、以下の2文が検索されたものとする。
a. T社は次世代携帯端末に超小型LSIを採用すると発表した。
b. G社の構想には、indexの増加だけでなく、新規の検索アルゴリズムとしてLSIを採用することも含まれている。
[回答候補抽出手段]
回答候補抽出手段114は、関連記事検索手段113の検索結果から回答候補を抽出する。回答候補の抽出には、質問文解析手段112の解析した質問タイプが参考にされる。この例の場合、前述したように、質問タイプは[会社]であり、回答候補抽出手段114は、関連記事検索手段113の取得した、検索結果、すなわち、
a. T社は次世代携帯端末に超小型LSIを採用すると発表した。
b. G社の構想には、indexの増加だけでなく、新規の検索アルゴリズムとしてLSIを採用することも含まれている。
これらの文から、回答候補としての「会社」を抽出する。回答候補抽出処理は、公知の固有名詞抽出技術を適用することができる。例えば固有名詞辞書に登録された会社名としての固有名詞を検索結果から取得する。なお、固有名詞辞書は、質問応答システム部110に備えた構成としても、あるいは、ネットワークを介してアクセス可能な辞書を適用してもよい。
この場合、上記検索結果a,bに含まれる「会社」として、検索結果aに含まれる「T社」と、検索結果bに含まれる「G社」が回答候補として抽出される。
[回答候補選択手段]
回答候補選択手段115は、回答候補抽出手段114の抽出した回答候補を適用して、ユーザに対する問い合わせ処理を実行して、回答候補の適正情報を取得する。
この処理例では、回答候補抽出手段114は、回答候補として、「T社」と「G社」を抽出しており、回答候補選択手段115は、図3に示す問い合わせ画面をディスプレイに表示する。すなわち、以下の質問画面が提示される。
*回答候補が複数あります!
回答として最適と思われる回答を選択してください
1.T社
2.G社
なお、この例では、回答候補が2つのみの場合を示しているが、3つ以上の回答候補がある場合は、抽出された回答候補のすべてを提示して、ユーザに最適な回答を選択させる。
ここでは、選択画面に提示された2つの回答候補[1.T社、2.G社]から、ユーザが最適な回答として、
[2.G社]
を選択したものと仮定する。
すなわち、各回答候補に対する適正情報として、「G社」が適正な回答であり、「T社」が不適正な回答であるとの適正情報を得る。
[回答出力手段]
回答出力手段116は、質問応答システム部110における最終処理であり、質問に対する回答をディスプレイ等に出力する処理を実行する。本発明の関連語辞書作成処理とは関連しない部分であり、詳細な説明は省略する。
[関連語辞書修正手段]
次に、関連語辞書管理部120の関連語辞書修正手段121の処理について説明する。関連語辞書は、関連語辞書保持部122に、例えば一般的な既成の辞書が初期的に格納済みであり、関連語辞書管理部120の関連語辞書修正手段121は、関連語辞書保持部122に格納された既成辞書を取り出して、ユーザが質問応答システム部110を利用して実行した各質問および回答情報に基づいて修正を行い、そのユーザに特化したユーザ固有の関連語辞書を生成し、更新する処理を実行する。
関連記辞書修正手段121は、質問応答システム部110の質問文解析手段112で、質問に基づいて抽出されたキーワード、すなわち、「LSI」「採用」と、回答候補選択手段115において、適切な回答候補としてユーザによって選択された「G社」、および選択されなかった「T社」を修正対象語として、関連語辞書の修正処理を実行する。
具体的には、関連語辞書修正手段121は、関連語辞書の設定情報としてのキーワードおよび回答候補との関連度情報を、回答候補の適正情報に基づいて修正または新規設定する処理を実行し、利用ユーザに特化した関連語辞書の生成または更新処理を実行する。
なお、ここで、関連語辞書とは一般名詞と固有名詞の見出し語と関連語と両者の距離のリストであるものとする。従って、サ変動詞語幹である「採用」は関連語辞書には含まれないものとする。図4に関連語辞書の例を示す。図4(a)は、関連語辞書保持部122に保持された修正前の関連語辞書であり、図4(b)は以下において説明する関連語辞書修正手段121による修正処理の後の関連語辞書の一部データを示している。
関連語辞書は、例えば、図4に示すように見出し語と、見出し語に関連する語としての関連語と、見出し語と関連語の関連度の評価値を示す距離との対応データとから構成される。距離は0〜1.0の間で設定され、1.0に近いほど見出し語と関連語との関連度が高く、0に近いほど見出し語と関連語との関連度が低いことを示している。
関連語辞書に設定された見出し語「LSI」は、
1)Large Scale Integrated circuit(大規模集積回路)、
2)Latent Semantic Indexing(潜在的意味索引付け)
これら2つの異なる意味を持つため、それぞれの語義に関連のある語が混在している。
例えば、図4(a)に示す関連語辞書の見出し語である「LSI」の関連語としてリストアップされている「回路」は1)の意味を持つ「LSI」に対応する関連語であり、「LSI」の関連語としてリストアップされている「検索」は2)の意味を持つ「LSI」に対応する関連語である。
関連語辞書修正手段121は、この図4(a)に示す関連語辞書を修正処理対象として、ユーザが質問応答システム部110を利用して実行した各質問および回答情報に基づく修正を実行して、そのユーザに特化したユーザ固有の関連語辞書を生成する。修正処理としては、例えば、
*関連語辞書における関連語の追加,削除、
*関連語辞書における距離値の修正、
これらの処理を実行する。
本実施例において、関連語辞書修正手段121の実行する具体的な処理について説明する。基本的に、関連語辞書修正手段121は、
a)質問文解析手段112において、質問に基づいて抽出されたキーワード「LSI」と、
回答候補選択手段115において、適切な回答候補としてユーザによって選択された「G社」と、
の距離を近づける処理と、
b)質問文解析手段112において、質問に基づいて抽出されたキーワード「LSI」と、
回答候補選択手段115において、適切な回答候補としてユーザによって選択されなかった「T社」と、
の距離を遠ざける処理と、
これらa),b)の処理を実行する。
これらの処理は、要約すると、質問応答システム部において実行された処理に適用したキーワードとキーワードに基づく検索結果から得られた回答候補からなる語群間の関連度の修正処理である。ここ
本実施例では、キーワードと回答候補は、「LSI」、「T社」、「G社」の各語の関連度の修正として実行されることになる。
以下、
A.見出し語「LSI」に対応する関連語修正処理、
B.見出し語「G社」に対応する関連語修正処理、
C.見出し語「T社」に対応する関連語修正処理、
の各処理について、順次、その詳細を説明する。
[A.見出し語「LSI」に対応する関連語修正処理]
まず、関連語辞書の見出し語「LSI」の関連語の修正処理について説明する。
見出し語「LSI」に対応する関連語修正処理としては、
(A1)見出し語「LSI」と関連語「G社」の距離を近づける処理
(A2)見出し語「LSI」と関連語「T社」の距離を遠ざける処理
(A3)見出し語「LSI」の関連語中、見出し語「G社」の関連語と共通する関連語の距離を近づける処理
(A4)見出し語「LSI」の関連語中、見出し語「T社」の関連語と共通する関連語の距離を遠ざける処理
の各処理を行なうことになる。これらの各処理の詳細を以下、説明する。
(A1)見出し語「LSI」と関連語「G社」の距離を近づける処理
関連語辞書の見出し語「LSI」の関連語として「G社」が含まれているかを調べる。図4に示す辞書では含まれていないため、見出し語「LSI」の関連語として「G社」を追加する。
さらに、見出し語「LSI」と関連語「G社」との距離を算出する。ここでは、見出し語「LSI」と全関連語の距離の平均を算出し、この平均距離を、見出し語「LSI」と関連語「G社」との距離とする。
ここでは(0.8+0.5+0.5+0.5+0.3)/5=0.52が、見出し語「LSI」と関連語「G社」との距離として設定される。
(A2)見出し語「LSI」と関連語「T社」の距離を遠ざける処理
次に、見出し語「LSI」と関連語「T社」の距離を遠ざける処理について説明する。「T社」が見出し語「LSI」の関連語として含まれているかを調べる。図4(a)に示す関連語辞書には、既に、「T社」が見出し語「LSI」の関連語として含まれている。
この場合、関連語「T社」の距離(修正前の距離=0.50)を低下させる処理を行なう。新たな距離(ND)は、現在の距離(CD)に基づいて、例えば以下の距離算出式(式1)を適用して算出する。
ND=−CD/k+CD・・・(式1)
ただし、k:係数(1<k)である。
係数k=2.0として、新たな距離(ND)を算出する。
本実施例では、図4(a)に示すように、
見出し語「LSI」と関連語「T社」の現在の距離CD=0.50である。従って、新たな距離(ND)は、
ND=−0.5/2+0.5
=0,25
となり、見出し語「LSI」と関連語「T社」の新たな距離ND=0.25として算出される。この新たな距離を図4(b)に示すように、関連語辞書の見出し語「LSI」と関連語「T社」の新たな距離として設定する。
(A3)見出し語「LSI」の関連語中、見出し語「G社」の関連語と共通する関連語の距離を近づける処理
次に、見出し語「LSI」の関連語中、見出し語「G社」の関連語と共通する関連語の距離を近づける処理を実行する。
まず、見出し語「LSI」の関連語として、見出し語「G社」の関連語と共通する関連語が含まれているかを調べる。ここでは、図4(a)に示すように、「検索」が見出し語「LSI」と「G社」に共通の関連語であるので、見出し語「LSI」に対して設定された関連語「検索」の距離を近づける処理を実行する。
この場合、見出し語「LSI」に対して設定された関連語「検索」の距離(修正前の距離=0.50)を大きくする処理を行なう。新たな距離(ND)は、
現在の距離(CD)と、
見出し語「LSI」と、共通関連語を持つ見出し語「G社」に等しい関連語「G社」との距離(WD)と、
に基づいて、例えば以下の距離算出式(式2)を適用して算出する。
ND=(1−(CD×WD))/k+CD・・・(式2)
ただし、k:係数(1<k)である。
係数k=2.0として、新たな距離(ND)を算出する。
本実施例では、図4(a)に示すように、
見出し語「LSI」と関連語「検索」の現在の距離CD=0.50であり、
また、前述した(A1)の処理によって設定された距離、
見出し語「LSI」と、共通関連語を持つ見出し語「G社」に等しい関連語「G社」との距離WD=0.52
である。従って、新たな距離(ND)は、
ND=(1−(0.5×0.52))/2+0.5
=0,87
となり、見出し語「LSI」と関連語「検索」の新たな距離ND=0.87として算出される。この新たな距離を図4(b)に示すように、関連語辞書の見出し語「LSI」と関連語「検索」の新たな距離として設定する。
(A4)見出し語「LSI」の関連語中、見出し語「T社」の関連語と共通する関連語の距離を遠ざける処理
次に、見出し語「LSI」の関連語中、見出し語「T社」の関連語と共通する関連語の距離を遠ざける処理を行なう。
まず、見出し語「LSI」の関連語として、見出し語「T社」の関連語と共通する関連語が含まれているかを調べる。ここでは、図4(a)に示すように、「家電」が見出し語「LSI」と「T社」に共通の関連語であるので、見出し語「LSI」に対して設定された関連語「家電」の距離を遠ざける処理を実行する。
この場合、見出し語「LSI」に対して設定された関連語「家電」の距離(修正前の距離=0.30)を小さくする処理を行なう。新たな距離(ND)は、
現在の距離(CD)と、
見出し語「LSI」と、共通関連語を持つ見出し語「T社」に等しい関連語「T社」との距離(WD)と、
に基づいて、例えば以下の距離算出式(式3)を適用して算出する。
ND=−(CD×(1−WD))/k+CD・・・(式3)
ただし、k:係数(1<k)である。
係数k=2.0として、新たな距離(ND)を算出する。
本実施例では、図4(a)に示すように、
見出し語「LSI」と関連語「家電」の現在の距離CD=0.30であり、
また、前述した(A2)の処理によって設定された距離、
見出し語「LSI」と、共通関連語を持つ見出し語「T社」に等しい関連語「T社」との距離WD=0.25
である。従って、新たな距離(ND)は、
ND=−(0.3×(1−0.25))/2+0.3
=0,19
となり、見出し語「LSI」と関連語「家電」の新たな距離ND=0.19として算出される。この新たな距離を図4(b)に示すように、関連語辞書の見出し語「LSI」と関連語「家電」の新たな距離として設定する。
以上の(A1)〜(A4)の4つの処理が、見出し語「LSI」に対応するエントリの修正処理として実行される。
[B.見出し語「G社」に対応する関連語修正処理]
次に、関連語辞書の見出し語「G社」の関連語の修正処理について説明する。
見出し語「G社」に対応する関連語修正処理としては、
(B1)見出し語「G社」と関連語「LSI」の距離を近づける処理
この処理を行なうことになる。この処理の詳細を以下、説明する。
(B1)見出し語「G社」と関連語「LSI」の距離を近づける処理
見出し語「G社」と関連語「LSI」の距離を近づける処理について説明する。見出し語「G社」に対応する関連語として「LSI」が含まれているかを調べる。図4(a)に示す辞書には、見出し語「G社」に対応する関連語として「LSI」が含まれていない。この場合は、見出し語「G社」に対応する関連語として「LSI」を追加し、さらに、距離を設定する。
設定距離は、見出し語「G社」に対応する関連語として登録されたエントリについての距離の平均、すなわち、全関連語の平均距離とする。図4(a)に示す関連語辞書では、見出し語「G社」に対応する関連語として登録されたエントリについての距離の平均は、0.80である。従って、見出し語「G社」に対応する関連語として「LSI」を追加し、距離を0.80に設定したエントリを追加(図4(b)参照)する。
[C.見出し語「T社」に対応する関連語修正処理]
次に、関連語辞書の見出し語「T社」の関連語の修正処理について説明する。
見出し語「T社」に対応する関連語修正処理としては、
(C1)見出し語「T社」と関連語「LSI」の距離を遠ざける処理
の処理を行なうことになる。この処理の詳細を以下、説明する。
(C1)見出し語「T社」と関連語「LSI」の距離を遠ざける処理
見出し語「T社」と関連語「LSI」の距離を遠ざける処理について説明する。見出し語「T社」に対応する関連語として「LSI」が含まれているかを調べる。図4(a)に示す辞書には、見出し語「T社」に対応する関連語として「LSI」が含まれており、現在の距離(CD)が0.30である。この現在の距離(0.30)を遠ざける、すなわち値を小さくする処理を行なう。
関連語「LSI」の距離(修正前の距離=0.30)を低下させる処理を行なう。新たな距離(ND)は、現在の距離(CD)に基づいて、前述の距離算出式(式1)を適用して算出する。
ND=−CD/k+CD・・・(式1)
ただし、k:係数(1<k)である。
係数k=2.0として、新たな距離(ND)を算出する。
本実施例では、図4(a)に示すように、
見出し語「T社」と関連語「LSI」の現在の距離CD=0.30である。従って、新たな距離(ND)は、
ND=−0.3/2+0.3
=0,15
となり、見出し語「T社」と関連語「LSI」の新たな距離ND=0.15として算出される。この新たな距離を図4(b)に示すように、関連語辞書の見出し語「G社」と関連語「LSI」の新たな距離として設定する。
これらの処理の結果として、図4(b)に示す修正された関連語辞書が生成される。なお、この関連語辞書の修正処理は、関連語辞書管理部120の関連語辞書修正手段121において実行され、修正辞書が、関連語辞書保持部122に格納される。
関連語辞書修正手段の実行する処理は、要約すると以下の処理である。
a)キーワードと適正な回答各々に対応する語相互の関連度を上昇させる処理と、
b)キーワードと不適正な回答各々に対応する語相互の関連度を低下させる処理と、
c)キーワードと適正な回答とに共通して辞書に登録された関連語について、キーワードに対応する語と当該関連語との関連度を上昇させる処理と、
d)キーワードと不適正な回答とに共通して辞書に登録された関連語について、キーワードに対応する語と当該関連語との関連度を低下させる処理と、
を実行する。
なお、関連語辞書修正手段121は、関連語辞書の修正を質問応答システム部110において新たな質問応答処理が実行される毎に実行するか、あるいは、所定期間の質問応答システム部110において実行された質問応答データを記憶部に蓄積し、一定期間ごとに蓄積データに基づいて関連語辞書の修正を実行する構成とする。この修正処理によって、質問応答システム部110を利用するユーザの興味、関心の深いカテゴリや分野に特化したユーザ固有の関連語辞書が作成されることになる。
次に、図5に示すフローチャートを参照して、本発明の関連語辞書作成装置において実行するデータ処理シーケンスについて説明する。
図5に示す処理フロー中、ステップS101〜S105は質問応答システム部110の処理であり、ステップS106〜S108の処理は、関連語辞書管理部120の処理である。
ステップS101において、クライアント(ユーザ)からの質問を入力すると、ステップS102において、クライアントからの入力質問の解析処理を実行し質問文からキーワードを抽出する。する。この処理は、図1に示す質問文解析手段112が実行する処理である。
具体的には、例えば、
(入力質問)「最近、LSIを採用したのはどの会社ですか?」
という質問がクライアントから入力された場合、
かはめにしは法などを適用して、「LSI」、「採用」を検索キーワードとして抽出する。
次に、ステップS103において、検索キーワードに基づく検索処理を実行する。この処理は、図1に示す検索手段113の処理である。例えば、ネットワークに接続されたWebページ提供サーバの提供するWebページやその他のデータベースを対象とした例えばキーワード検索処理により、複数の回答候補を取得する。
ステップS104では、検索結果から回答候補を抽出する。この処理は、図1に示す回答候補抽出手段114において実行する処理であり、質問タイプに基づいて検索結果から回答候補を抽出する。例えば、「LSI」、「採用」を検索キーワードとして検索された検索結果、
a. T社は次世代携帯端末に超小型LSIを採用すると発表した。
b. G社の構想には、indexの増加だけでなく、新規の検索アルゴリズムとしてLSIを採用することも含まれている。
これらの文から、回答候補としての会社として、回答候補「G社」、[T社]を抽出する。
ステップS105は、回答候補から適切な回答候補を選択する処理であり、図1に示す回答候補選択手段115の実行する処理である。例えば、図3に示す表示画面をユーザに提示して、適切な回答を選択させる。例えば、
「G社」=適切
「T社」=不適切
これらの選択結果が得られる。
次に、ステップS106では、キーワードおよび回答候補を見出し語として含む関連語辞書データを関連語辞書保持部122から取得し、ステップS107において関連語辞書の修正処理を実行する。これらの処理は、図1に示す関連語辞書管理部120の関連語辞書修正手段121が実行する。
ステップS107の処理は、質問応答システム部110において実行した質問応答の結果として取得されたキーワードおよび回答候補(適切回答候補、不適切回答候補)に基づいて関連語辞書を修正する処理である。この修正処理は、要約すると、
*キーワードと適切な回答候補との距離を近づける処理、
*キーワードと不適切な回答候補との距離を遠ざける処理、
*キーワードと各回答候補に共通する関連語の距離修正処理、
これらの処理である。
具体的には、前述したように、
A.キーワード対応の見出し語(「LSI」)の設定されたエントリの関連語修正処理、
B.適切回答候補対応の見出し語(「G社」)の設定されたエントリの関連語修正処理、
C.不適切回答候補対応の見出し語(「T社」)の設定されたエントリの関連語修正処理、
である。
さらに、具体的には、
A.見出し語にキーワード(「LSI」)の設定されたエントリの関連語修正処理として、
(A1)キーワード対応の見出し語「LSI」と適切回答候補対応の関連語「G社」の距離を近づける処理
(A2)キーワード対応の見出し語「LSI」と不適切回答候補対応の関連語「T社」の距離を遠ざける処理
(A3)キーワード対応の見出し語「LSI」の関連語中、適切回答候補対応の見出し語「G社」の関連語と共通する関連語の距離を近づける処理
(A4)キーワード対応の見出し語「LSI」の関連語中、不適切回答候補対応の見出し語「T社」の関連語と共通する関連語の距離を遠ざける処理
の各処理を行ない、
B.適切回答候補対応の見出し語(「G社」)の設定されたエントリの関連語修正処理、
(B1)適切回答候補対応の見出し語「G社」とキーワード対応の関連語「LSI」の距離を近づける処理を行い、
C.不適切回答候補対応の見出し語(「T社」)の設定されたエントリの関連語修正処理として、
(C1)不適切回答候補対応の見出し語「T社」とキーワード対応の関連語「LSI」の距離を遠ざける処理を行うことになる。
これらの処理が終了すると、ステップS108に進み、修正の完了した関連語辞書を関連語辞書保持部122に格納して処理を終了する。
このように、本発明の関連語辞書生成装置では、質問応答システムにおいてユーザの質問から重要語として抽出されたキーワードと、キーワードに基づく検索処理の結果から抽出された回答候補と回答候補の適正情報を、関連語辞書修正手段に入力し、これらの入力情報に基づいて関連語辞書の修正処理を実行する。例えば、回答候補の適正情報に基づいて、キーワードと適正な回答各々に対応する語相互の関連度を上昇させ、キーワードと不適正な回答各々に対応する語相互の関連度を低下させる処理を行い、さらに、キーワードと適正な回答とに共通して辞書に登録された関連語について、キーワードに対応する語と関連語との関連度を上昇させる処理や、キーワードと不適正な回答とに共通して辞書に登録された関連語について、キーワードに対応する語と当該関連語との関連度を低下させる処理などを実行する。このような関連語辞書修正処理により、質問応答システムを利用したユーザの興味、関心分野に特化したユーザ固有の関連語辞書が生成または更新される。
[その他の実施例]
以下、上述した実施例と異なる構成例について説明する。
上述の実施例では、質問文入力手段111において、自然文を質問として入力する例を示したが、自然文ではなく、単語の文字列を用いることも可能である。例えば、「LSI」「検索」という文字列を入力する。この場合、質問文解析手段112のキーワード抽出処理は不要であり、検索手段113において、この入力語を検索語にして検索を行う。
また、回答候補抽出手段114は、検索手段113における検索結果について、キーワードの一致度数などに基づくスコアを設定し、スコアに基づいて上位n件の提示をユーザに対して行う構成としてもよい。例えば、「LSI」「検索」という文字列に基づく検索結果として下記の3件が提示される。
1.G社の構想には、インデックスの増加だけでなく、新規の検索アルゴリズムとしてLSIを採用することも含まれている。
2.我々の検索エンジンでは言語横断探索にLSIを用いています。
3.ベクトル空間を利用した検索としてもっとも一般的なのがLSIです。
図1には示さない回答候補解析手段において、上記の3件から重要語を抽出する。抽出する手法は公知のもので構わない。ここでは「G社」、「インデックス」、「検索」、「エンジン」、「アルゴリズム」、「言語横断」、「探索」、「ベクトル」が抽出されたとする。
関連語辞書修正手段121は、回答候補解析手段において抽出された重要語と一致する見出し語及び関連語を持つデータを関連語辞書から抽出し、上述した手法に従って、データの修正を実行する。
このような処理構成とすることで、典型的な質問応答システムだけでなく、検索、対話システム等、より一般的なシステムを適用した場合においても関連語辞書修正によるユーザ対応の関連語辞書の生成、更新処理が可能となる。
また、上記の回答候補抽出手段114において抽出された検索結果の上位n件のうち、使用者に選択された検索結果のみを回答候補解析手段に渡し重要語抽出を実行して、その結果に基づく関連語辞書修正を行なう構成としてもよい。例えば、上記の検索結果のうち2が選ばれた場合には、「回答候補解析手段」において抽出される語は「検索」「エンジン」言語横断」「探索」になり、これらの結果に基づいて、関連語辞書の修正を行なう構成としてもよい。
また、上述の実施例において、関連語辞書作成装置は例えば、パソコン等の端末上でユーザが質問を生成し、回答を取得することを想定したものであったが、ネットワークに接続している環境であれば、パソコン以外の情報処理装置、例えば、コピー、プリント、FAX送受信等の処理を実行するマルチファンクション(MF)機などを利用する構成も可能である。
例えば、図6に示すようなネットワーク構成を想定する。複数の部署が混在するフロアに置かれているコピー、プリント、FAX送受信等の処理を実行するマルチファンクション(MF)機301はネットワーク310に接続されている。
多くのユーザがユーザを特定可能なIDカードを保持し、IDカードをMF機301のリーダに読み込ませ、MF機301の機能、例えば、コピー、プリント、FAXなどを利用する。IDの読み取りにおいてユーザの所属組織、氏名などが特定され、情報処理装置302に送信される。
さらに、MF機301の機能、例えば、コピー、プリント、FAXなどを利用により、スキャンされた文書データが情報処理装置302に送信される。情報処理装置302では、スキャン文書データをテキスト化し、そのテキストデータから重要語を抽出する。テキスト化にはOCRなどの公知の技術を、重要語の抽出にはTF/IDFなどの公知の技術をそれぞれ使用する。ここでは、文書から「T社」、「販社」、「サンプル」という名詞が抽出されたとする。
情報処理装置302は、データベース303に格納された各ユーザ対応の関連語辞書をユーザIDに基づいて取得する。ここで使用者は、営業部Bグループに所属することが分かっているので、データベース303から、営業部Bグループ用の辞書を特定し、上述の重要語に該当する見出し語に対応するエントリの修正を行う。すなわち、関連語辞書における重要語に対応する語相互間の関連度情報を修正する処理を実行し、利用ユーザに特化した関連語辞書の生成または更新処理を実行する。
なお、図6に示す構成では、MF機301と情報処理装置302を個別の構成として説明したが、MF機301に情報処理装置において実行するデータ処理機能を備えさせることも可能であり、この場合は、MF機のみで関連語辞書の修正処理が可能となる。
この構成によれば、MF機のように共有の端末であっても、使用者(使用組織)に特化した辞書のカスタマイズを行うことができる。
最後に、上述した処理を実行する関連語辞書作成装置を構成する情報処理装置のハードウェア構成例について、図7を参照して説明する。CPU(Central Processing Unit)501は、OS(Operating System)に対応する処理や、上述の実施例において説明した入力質問に基づく質問文解析処理、検索処理、回答候補抽出処理、さらに、関連語辞書修正処理などを実行する。これらの処理は、各情報処理装置のROM、ハードディスクなどのデータ記憶部に格納されたコンピュータ・プログラムに従って実行される。
ROM(Read Only Memory)502は、CPU501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。
キーボード508、ポインティングデバイス509は、ユーザにより操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージで表示する。
HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、例えばユーザ対応の関連語辞書の格納、回答候補の格納手段などに利用され、さらに、データ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。
接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続され、クライアントやネットワーク接続サーバとの通信を実行する。
なお、図7に示す関連語辞書作成装置として適用される情報処理装置のハードウェア構成例は、PCを適用して構成した装置の一例であり、本発明の関連語辞書作成装置は、図7に示す構成に限らず、上述した実施例において説明した処理を実行可能な構成であればよい。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の構成によれば、質問応答システムにおいてユーザの質問から重要語として抽出されたキーワードと、キーワードに基づく検索処理の結果から抽出された回答候補と回答候補の適正情報を、関連語辞書修正手段に入力し、これらの入力情報に基づいて関連語辞書の修正処理を実行する。例えば、回答候補の適正情報に基づいて、キーワードと適正な回答各々に対応する語相互の関連度を上昇させ、キーワードと不適正な回答各々に対応する語相互の関連度を低下させる処理を行い、さらに、キーワードと適正な回答とに共通して辞書に登録された関連語について、キーワードに対応する語と関連語との関連度を上昇させる処理や、キーワードと不適正な回答とに共通して辞書に登録された関連語について、キーワードに対応する語と当該関連語との関連度を低下させる処理などを実行する。このような関連語辞書修正処理により、質問応答システムを利用したユーザの興味、関心分野に特化したユーザ固有の関連語辞書が生成または更新される。
本発明の関連語辞書作成装置の構成を示すブロック図である。 本発明の関連語辞書作成装置の適用例を示すネットワーク構成図である。 本発明の関連語辞書作成装置の質問応答システム部が提示する回答候補選択画面例を示す図である。 関連語辞書の構成および本発明の関連語辞書作成装置の関連語辞書修正手段の実行する処理について説明する図である。 本発明の関連語辞書作成装置の実行する処理シーケンスについて説明するフローチャートを示す図である。 本発明の関連語辞書作成装置の適用構成例について説明する図である。 本発明の関連語辞書作成装置のハードウェア構成例について説明する図である。
符号の説明
100 関連語辞書作成装置
110 質問応答システム部
111 質問入力手段
112 質問文解析手段
113 関連記事検索手段
114 回答候補抽出手段
115 回答候補選択手段
116 回答出力手段
120 関連語辞書管理部
121 関連語辞書修正手段
122 関連語辞書保持部
200 ネットワーク
201 クライアント
202 Webページ提供サーバ
203 データベース
301 マルチファンクション(MF)機
302 情報処理装置
303 データベース
501 CPU(Central Processing Unit)
502 ROM(Read-Only-Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器

Claims (9)

  1. 関連語辞書の作成または更新処理を実行する関連語辞書作成装置であり、
    ユーザの質問から重要語としてのキーワードを抽出する質問解析手段と、
    前記キーワードに基づく検索処理を実行する検索手段と、
    前記検索手段による検索結果から前記質問に対する回答候補を抽出する回答候補抽出手段と、
    前記回答候補抽出手段の抽出した回答候補の適正情報を取得する回答候補選択手段と、
    前記キーワードおよび回答候補および該回答候補の適正情報とを入力し、入力情報に基づく関連語辞書の修正処理を実行する関連語辞書修正手段とを有し、
    前記関連語辞書修正手段は、
    関連語辞書の設定情報としての前記キーワードおよび回答候補との関連度情報を、前記回答候補の適正情報に基づいて修正または新規設定する処理を実行し、利用ユーザに特化した関連語辞書の生成または更新処理を実行する構成を有することを特徴とする関連語辞書作成装置。
  2. 前記関連語辞書修正手段は、
    関連語辞書における前記キーワードおよび回答候補との関連度情報の修正処理として、前記回答候補の適正情報に基づいて、
    キーワードと適正な回答各々に対応する語相互の関連度を上昇させる処理と、
    キーワードと不適正な回答各々に対応する語相互の関連度を低下させる処理と、
    を実行する構成であることを特徴とする請求項1に記載の関連語辞書作成装置。
  3. 前記関連語辞書修正手段は、
    関連語辞書における前記キーワードおよび回答候補との関連度情報の修正処理として、前記回答候補の適正情報に基づいて、
    キーワードと適正な回答とに共通して辞書に登録された関連語について、キーワードに対応する語と当該関連語との関連度を上昇させる処理と、
    キーワードと不適正な回答とに共通して辞書に登録された関連語について、キーワードに対応する語と当該関連語との関連度を低下させる処理と、
    を実行する構成であることを特徴とする請求項1に記載の関連語辞書作成装置。
  4. 関連語辞書の作成または更新処理を実行する関連語辞書作成装置であり、
    ユーザのスキャン文書から重要語としてのキーワードを抽出する手段と、
    前記キーワードを入力し、入力情報に基づく関連語辞書の修正処理を実行する関連語辞書修正手段とを有し、
    前記関連語辞書修正手段は、
    関連語辞書における前記キーワードに対応する語相互間の関連度情報を修正する処理を実行し、利用ユーザに特化した関連語辞書の生成または更新処理を実行する構成を有することを特徴とする関連語辞書作成装置。
  5. 関連語辞書の作成または更新処理を実行する関連語辞書作成方法であり、
    ユーザの質問から重要語としてのキーワードを抽出する質問解析ステップと、
    前記キーワードに基づく検索処理を実行する検索ステップと、
    前記検索ステップにおける検索結果から前記質問に対する回答候補を抽出する回答候補抽出ステップと、
    前記回答候補抽出ステップにおいて抽出した回答候補の適正情報を取得する回答候補選択ステップと、
    前記キーワードおよび回答候補および該回答候補の適正情報とを入力し、入力情報に基づく関連語辞書の修正処理を実行する関連語辞書修正ステップとを有し、
    前記関連語辞書修正ステップは、
    関連語辞書の設定情報としての前記キーワードおよび回答候補との関連度情報を、前記回答候補の適正情報に基づいて修正または新規設定する処理を実行し、利用ユーザに特化した関連語辞書の生成または更新処理を実行することを特徴とする関連語辞書作成方法。
  6. 前記関連語辞書修正ステップは、
    関連語辞書における前記キーワードおよび回答候補との関連度情報の修正処理として、前記回答候補の適正情報に基づいて、
    キーワードと適正な回答各々に対応する語相互の関連度を上昇させる処理と、
    キーワードと不適正な回答各々に対応する語相互の関連度を低下させる処理と、
    を実行することを特徴とする請求項5に記載の関連語辞書作成方法。
  7. 前記関連語辞書修正ステップは、
    関連語辞書における前記キーワードおよび回答候補との関連度情報の修正処理として、前記回答候補の適正情報に基づいて、
    キーワードと適正な回答とに共通して辞書に登録された関連語について、キーワードに対応する語と当該関連語との関連度を上昇させる処理と、
    キーワードと不適正な回答とに共通して辞書に登録された関連語について、キーワードに対応する語と当該関連語との関連度を低下させる処理と、
    を実行することを特徴とする請求項5に記載の関連語辞書作成方法。
  8. 関連語辞書の作成または更新処理を実行する関連語辞書作成方法であり、
    ユーザのスキャン文書から重要語としてのキーワードを抽出するステップと、
    前記キーワードを入力し、入力情報に基づく関連語辞書の修正処理を実行する関連語辞書修正ステップとを有し、
    前記関連語辞書修正ステップは、
    関連語辞書における前記キーワードに対応する語相互間の関連度情報を修正する処理を実行し、利用ユーザに特化した関連語辞書の生成または更新を行なうステップであることを特徴とする関連語辞書作成方法。
  9. 関連語辞書の作成または更新処理をコンピュータ上において実行させるコンピュータ・プログラムであり、
    ユーザの質問から重要語としてのキーワードを抽出する質問解析ステップと、
    前記キーワードに基づく検索処理を実行する検索ステップと、
    前記検索ステップにおける検索結果から前記質問に対する回答候補を抽出する回答候補抽出ステップと、
    前記回答候補抽出ステップにおいて抽出した回答候補の適正情報を取得する回答候補選択ステップと、
    前記キーワードおよび回答候補および該回答候補の適正情報とを入力し、入力情報に基づく関連語辞書の修正処理を実行する関連語辞書修正ステップとを有し、
    前記関連語辞書修正ステップは、
    関連語辞書の設定情報としての前記キーワードおよび回答候補との関連度情報を、前記回答候補の適正情報に基づいて修正または新規設定する処理を実行し、利用ユーザに特化した関連語辞書の生成または更新処理を実行することを特徴とするコンピュータ・プログラム。
JP2005167897A 2005-06-08 2005-06-08 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム Pending JP2006343925A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005167897A JP2006343925A (ja) 2005-06-08 2005-06-08 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005167897A JP2006343925A (ja) 2005-06-08 2005-06-08 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム

Publications (1)

Publication Number Publication Date
JP2006343925A true JP2006343925A (ja) 2006-12-21

Family

ID=37640863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005167897A Pending JP2006343925A (ja) 2005-06-08 2005-06-08 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム

Country Status (1)

Country Link
JP (1) JP2006343925A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086210A (ja) * 2008-09-30 2010-04-15 Yahoo Japan Corp 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
JP2011128737A (ja) * 2009-12-16 2011-06-30 Nifty Corp 辞書生成処理方法、プログラム及び装置
US8260731B2 (en) 2008-03-28 2012-09-04 International Business Machines Corporation Information classification system, information processing apparatus, information classification method and program
JP2013522720A (ja) * 2010-03-08 2013-06-13 アリババ・グループ・ホールディング・リミテッド 単語情報エントロピの決定
JP2018060493A (ja) * 2016-10-03 2018-04-12 ジャパンモード株式会社 問題解決支援システム、問題解決支援方法、及び問題解決支援プログラム
JP2019046441A (ja) * 2017-04-25 2019-03-22 パナソニックIpマネジメント株式会社 検索方法、検索装置及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8260731B2 (en) 2008-03-28 2012-09-04 International Business Machines Corporation Information classification system, information processing apparatus, information classification method and program
US9245012B2 (en) 2008-03-28 2016-01-26 International Business Machines Corporation Information classification system, information processing apparatus, information classification method and program
JP2010086210A (ja) * 2008-09-30 2010-04-15 Yahoo Japan Corp 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
JP2011128737A (ja) * 2009-12-16 2011-06-30 Nifty Corp 辞書生成処理方法、プログラム及び装置
JP2013522720A (ja) * 2010-03-08 2013-06-13 アリババ・グループ・ホールディング・リミテッド 単語情報エントロピの決定
JP2018060493A (ja) * 2016-10-03 2018-04-12 ジャパンモード株式会社 問題解決支援システム、問題解決支援方法、及び問題解決支援プログラム
JP2019046441A (ja) * 2017-04-25 2019-03-22 パナソニックIpマネジメント株式会社 検索方法、検索装置及びプログラム
JP7117640B2 (ja) 2017-04-25 2022-08-15 パナソニックIpマネジメント株式会社 検索方法、検索装置及びプログラム

Similar Documents

Publication Publication Date Title
US7526474B2 (en) Question answering system, data search method, and computer program
US8090724B1 (en) Document analysis and multi-word term detector
KR102158352B1 (ko) 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램
US10552467B2 (en) System and method for language sensitive contextual searching
US20070118519A1 (en) Question answering system, data search method, and computer program
US7099870B2 (en) Personalized web page
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP2006073012A (ja) 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
JP2005174336A (ja) 情報抽出のための一般化文字列パターンの学習および使用
JP5204244B2 (ja) 誤訳の検出を支援する装置及び方法
Cheng et al. Creating multilingual translation lexicons with regional variations using web corpora
JP2006343925A (ja) 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
US7730062B2 (en) Cap-sensitive text search for documents
JP2004334341A (ja) 文書検索装置、文書検索方法及び記録媒体
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP2012243130A (ja) 情報検索装置、方法、及びプログラム
JP4983397B2 (ja) 文書検索装置、および文書検索方法、並びにコンピュータ・プログラム
JP2011095802A (ja) 機械翻訳装置及びプログラム
JP4368550B2 (ja) 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム