JP2005122665A

JP2005122665A - 電子機器装置、関連語データベースの更新方法、プログラム

Info

Publication number: JP2005122665A
Application number: JP2003360038A
Authority: JP
Inventors: Hirotaka Kondo; 広隆近藤; Daisuke Yano; 大介矢野; Toshio Nakao; 利雄中尾; Naomasa Takahashi; 巨成高橋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-10-20
Filing date: 2003-10-20
Publication date: 2005-05-12

Abstract

【課題】関連語データベースの更新処理の効率化を図ることのできる電子機器装置を提供する。
【解決手段】入力されたテキストの形態素解析を行う形態素解析部２と、その解析結果から単語を抽出する単語抽出エンジン４と、抽出された単語の中から関連する単語を関連語として抽出して関連語ＤＢ６の作成および更新を行う関連語抽出エンジン５とを有する。関連語抽出エンジン５は、単語の出現頻度と単語間の共起度から関連語の抽出を行うものであり、抽出した個々の単語について、この単語と関連するすべての単語との関連の強さの値の和を当該個々の単語の重みとして求め、この単語とその重みを要素として含む関連語ＢＤ６を作成し、新たなテキストに対する関連語の処理結果で関連語ＤＢ６を更新するとき、関連語ＤＢ６の既存の単語の重みに新たに求められた単語の重みを加算する。
【選択図】図８

Description

本発明は、意味的に関連する単語（関連語）のデータベースを作成する関連語データベース作成機能が組み込まれた電子機器装置、関連語データベースの更新方法およびプログラムに関する。

これまでの検索エンジンが検索情報を絞り込みを目的とするのに対し、検索結果を広げていくことを目的とした検索技術として「といえば検索」がある。この「といえば検索」は「○○といえば××」といった関係を文書単位で自動的に検索・認識し、類似した文書を分類するものである。

この「といえば検索」の具体的な処理の流れは以下の通りである。まず、文書から形態素解析により単語を切り出し、単語毎の出現頻度を算出して個々の単語の重要度を決定する。続いて、個々の単語の重要度に基づき文書の特徴ベクトルを計算する。そして、各文書どうしの特徴ベクトルを比較して文書間の類似度を計算し、類似度が高い文書を関連付けてデータベースに格納する（たとえば特許文献１を参照）。
特開２００２−２４５０６７公報

しかしながら、一般に、「といえば検索」を採用した検索システムは、類似文書の検索に特化されたものであり、単語の単位で類似するもの（関連語）を抽出することには利用できなかった。

そこで、関連語を要素とするデータベースを作成して、このデータベースから入力キーワードの関連語を抽出できる機構が求められている。この種のデータベースは、たとえば、情報ソースとして入力されたテキスト（ドキュメント）を形態素解析し、その解析結果から辞書を参照して単語を抽出し、その中から互いに関連する単語を出現頻度と共起度に基づいて抽出することによって作成することが可能である。

しかしながら、既存のデータベースを、より広い視野で単語間の関連性を見出すことのできるデータベースへと更新するには、既存のデータベースの作成元のテキストと別のテキストとを１つのテキストにまとめ、この１つにまとめられたテキストから、改めて形態素解析、単語抽出、関連語抽出を行って、はじめからデータベースを作成し直す必要があった。したがって、効率が悪く、データベースの更新コストがかさむ、という問題があった。

本発明は、このような事情を鑑み、関連語データベースの更新処理の効率化を図ることのできる電子機器装置、関連語データベースの更新方法、プログラムを提供することを目的とするものである。

上記の課題を解決するために、本発明の電子機器装置は、テキストを入力するテキスト入力部と、前記テキスト入力部より入力されたテキストから単語を抽出する単語抽出部と、前記単語抽出部により抽出された単語の中から関連する単語を関連語として抽出し、抽出した単語間の関連の強さの値をそれぞれ求め、抽出された個々の単語について、この単語に関連するすべて単語との関連の強さの値の和を当該個々の単語の重みとして求めて、この単語の重みを要素として含む関連語データベースを作成し、新たなテキストに対する関連語の処理結果で前記関連語データベースを更新するとき、前記関連語データベースの既存の単語の重みに新たに求められた単語の重みを加算する関連語抽出部とを具備する。

この発明によれば、新たなテキストに対する関連語の処理結果で関連語データベースを更新するのに、関連語データベースの既存の単語の重みに新たに求められた単語の重みを加算するだけでよいから、比較的少ない計算量で関連語データベースの更新を行うことができ、非力な演算処理装置を用いた電子機器装置においても関連語データベースの更新を高速に行うことができる。

関連語抽出部が、求められた単語の重みに対して、各テキストの単語数などの違いに応じた正規化を行う機能を有することによって、それぞれのテキストにおける単語の重み算出基準を一致させることができ、関連語データベースの更新を正当に行うことができる。関連語抽出部が、関連語データベース中の単語の重みをテキスト単位で管理する機能を有することによって、関連語データベースの内容をテキストの単位で操作することが可能になる。具体的には、一定期間が経過した過去のデータを、削除したり、テキスト単位の単語の重みを小さくして関連語データベースに及ぼす影響を少なくすることができる。

関連語抽出部が、単語の出現頻度と単語間の共起度から関連語の抽出を行い、共起度を単語と関連語との関連の強さの値として用いるものとすることによって、精度の良い関連語抽出が可能となり、実用的な関連語データベースを作成できるようになる。

また、本発明の電子機器装置は、キーワードを入力するキーワード入力部と、キーワード入力部より入力されたキーワードに関連する単語を、単語の重みを条件として関連語データベースより検索する関連語検索部とをさらに有するものとして構成することで、関連語データベースから、入力キーワードに対して、たとえば、関連の強い単語順に関連語を検索することができるようになる。

さらに、本発明の電子機器装置に、関連語検索部により検索された単語を入力単語の候補として処理する機能を付加することで、ユーザは自分の予測や知識の範囲を越えた関連語を候補から選択して入力することができる。逆に、分野の一致した複数のテキストから関連語データベースを作成すれば、その分野の言葉に限定された関連語データベースが得られ、たとえば、前述した入力支援機能に用いられる辞書として関連語データベースを利用すれば、ユーザの意図する単語が汎用辞書を用いたときに比べて速やかに入力することが可能になる。

また、本発明の電子機器装置は、関連語検索部によって関連語データベースより検索された複数の関連語をこれらの相互のつながりとともに図表化して関連語グラフとして出力する関連語グラフプロット部をさらに有するものとして構成してもかまわない。これにより、関連語どうしの関連をユーザが直感的に認識することができる。

そして、この関連語グラフで任意の単語をユーザに選択させ、選択された単語を入力単語の候補として処理するように構成することによって、ユーザは関連語どうしの関連を把握しながら目的の関連語を選択して入力することが可能になる。

また、本発明の電子機器装置は、関連語データベースに登録された複数の関連語をこれらの相互のつながりとともに図表化して関連語グラフとして出力するように構成するとともに、この関連語グラフで任意の単語を選択させ、選択された単語に応じた処理を行うように構成することによって、たとえば、ＥＰＧからの番組予約、ストレージデバイスに保存してある番組の検索、ウェブ検索、ブックマーク検索などを、言葉の関連を辿りつつ、連続して行うことができるようになる。

また、本発明の電子機器装置は、関連語データベースに登録された、テキスト間で共通する単語の数に基づいて、当該テキスト間の関連の強さを算出する機能を有する構成とすることも可能である。これにより、関連の強さを加味しつつ関連テキストを検索することが可能になる。

あるいは、本発明の電子機器装置は、関連語データベースに登録された、テキスト間で共通する、共起する単語対の数に基づいて、当該テキスト間の関連の強さを算出する機能を有する構成とすることも可能である。この構成によっても、関連の強さを加味しつつ関連テキストを検索することが可能になる。

さらに、関連する複数のテキストをこれらの関連の強さとともに図表化して関連テキストグラフとして出力することで、ユーザが一目で関連テキストを見つけ出すことができるようになる。

また、本発明の別の観点に基づく関連語データベースの更新方法は、テキストを入力するステップと、前記入力されたテキストから演算処理部にて単語を抽出するステップと、前記抽出された単語の中から前記演算処理部にて関連する単語を関連語として抽出するステップと、抽出された単語間の関連の強さの値を前記演算処理部にてそれぞれ求めるとともに、抽出された個々の単語について、この単語に関連するすべて単語との関連の強さの値の和を当該個々の単語の重みとして前記演算処理部にて求め、この単語の重みを要素として含む関連語データベースを作成して記憶部に記憶するステップと、新たに入力されたテキストに対する関連語の処理結果で前記記憶部に記憶されている前記関連語データベースを更新するとき、前記関連語データベースの既存の単語の重みに新たに求められた単語の重みを前記演算処理部にて加算するステップとを有するものである。

この発明の関連語データベースの更新方法によれば、新たなテキストに対する関連語の処理結果で関連語データベースを更新するのに、関連語データベースの既存の単語の重みに新たに求められた単語の重みを加算するだけでよいから、比較的少ない計算量で関連語データベースの更新を行うことができ、非力な演算処理装置を用いた電子機器装置においても関連語データベースの更新を高速に行うことができる。

さらに、本発明の別の観点に基づくプログラムは、コンピュータを、テキストを入力するテキスト入力部と、前記テキスト入力部より入力されたテキストから単語を抽出する単語抽出部と、前記単語抽出部により抽出された単語の中から関連する単語を関連語として抽出し、抽出した単語間の関連の強さの値をそれぞれ求め、抽出された個々の単語について、この単語に関連するすべての単語との関連の強さの値の和を当該個々の単語の重みとして求めて、この単語の重みを要素として含む関連語データベースを作成し、新たなテキストに対する関連語の処理結果で前記関連語データベースを更新するとき、前記関連語データベースの既存の単語の重みに新たに求められた単語の重みを加算する関連語抽出部として機能させるものである。

この発明のプログラムによれば、新たなテキストに対する関連語の処理結果で関連語データベースを更新するのに、関連語データベースの既存の単語の重みに新たに求められた単語の重みを加算するだけでよいから、比較的少ない計算量で関連語データベースの更新を行うことができ、非力な演算処理装置を用いた電子機器装置においても関連語データベースの更新を高速に行うことができる。

本発明によれば、関連語データベースの更新を効率良く、かつ精度良く行うことができるとともに、保守性に優れた実用的な関連語データベースを作成することができる。さらに本発明によれば、関連語検索部により検索された単語を入力単語の候補として処理することで、ユーザの予測や知識の範囲を越えた関連語の候補選択が可能になる。関連語グラフの表示によって関連語どうしの関連をユーザが直感的に認識しつつ目的の関連語を選択して入力できる。ＥＰＧからの番組予約、ストレージデバイスに保存してある番組の検索、ウェブ検索、ブックマーク検索などを言葉の関連を辿りつつ、連続して行うことができる。複数のテキスト間の関連をユーザが一目で知ることが可能になる。という優れた効果を奏し得る。

以下、本発明の実施の形態を図面に基づき説明する。

図１は、本発明の一実施形態にかかる関連語データベース（ＤＢ）作成装置の構成を示すブロック図である。同図に示すように、関連語ＤＢ作成システム１は、入力されたテキスト（ドキュメント）ｄの形態素解析を行う形態素解析部２と、単語が登録されている辞書３と、形態素解析部２の結果から辞書３を参照して単語を抽出する単語抽出エンジン４と、単語抽出エンジン４により抽出された単語から関連語を抽出して関連語データベース（ＤＢ）６の作成および更新を行う関連語抽出エンジン５とを備えて構成される。

図２は、関連語ＤＢ作成システム１の処理手順を示すフローチャートである。関連語ＤＢ作成システム１は、まず、関連語抽出のための情報ソースとして入力されたテキストｄを読み込み（ステップ２０１）、形態素解析部２に渡す。

形態素解析部２は、読み込んだテキストｄに対する形態素解析を行う（ステップ２０２）。ここで入力されるテキストｄとは、テキストが抽出できるすべてのコンテンツ、具体的にはウェブページ、ＴＶ番組、ストリーミング動画、ストリーミング音楽などの情報（音、画像、メタデータなどテキストに変換可能な情報）である。形態素解析部２は、辞書３を参照しながら、入力テキストｄを構成する文字列を単語の単位に分割し、分割した各単語に品詞や語形変化などの情報を与え、その結果をリストにして出力する。この形態素解析は、入力テキストｄが、単語間に空白を入れる（分かち書きする）習慣のない日本語などの言語の場合に行われ、英語などの単語間に空白を入れる言語の場合は行われる必要がない。

次に、単語抽出エンジン４は、形態素解析の結果として出力された単語リストから、所定の選定基準に従って、関連語ＤＢ６に登録すべきものとして最低限の条件を満足する単語を選定する（ステップ２０３）。選定すべき単語とは、特定の品詞、たとえば固有名詞、未知語（辞書３の未登録語）、カタカナ語などである。

また、単語抽出エンジン４は、単語リストに挙げられている複数の単語を所定の単語連結規則に従って連結する（ステップ２０４）。連結する単語の組み合わせパターンとしては、たとえば、「性＋名」、「姓＋一般名詞＋接尾語」、「姓＋一般名詞＋・・・＋名」、「姓＋一般名詞＋・・・＋一般名詞」、「固有名詞＋接尾語」、「カタカナ語＋・・・＋カタカナ語」などがある。

上記の単語連結規則のうちの「姓＋一般名詞＋接尾語」の規則は、辞書３に存在しない名などが一般名詞として解析された場合に、「さん」などの接尾辞を基にその一般名詞が名であることを類推することによって、姓名の単語を正しく選定するためのものである。「カタカナ語＋・・・＋カタカナ語」の規則は、元々一つのカタカナ語であった単語が形態素解析によって複数のカタカナ語に分割されてしまった場合でも、それらのカタカナ語が辞書３にある単語ならば、それらのカタカナ語を連結したものを一つのカタカナ語として選定するためのものである。たとえば、「ソニー」と「ファイナンス」とは一つの単語である「ソニーファイナンス」として選定される。

また、形態素解析のアルゴリズムによっては特殊な記号などが未知語として得られる場合がある。このような場合、単語抽出エンジン４にて、形態素解析の解析結果である単語リストから、上記特殊な記号などの未知語を、明らかに言葉として意味を持たない語（不要語）として選定対象から外す。これにより、単語の選定精度をより高めることができる。

次に、関連語抽出エンジン５にて、単語の出現頻度と単語間の共起度から関連語の抽出が行われ（ステップ２０５）、関連語ＤＢ６に追加される（ステップ２０６）。

関連語の抽出には、KeyGraph[電子情報通信学会論文誌 D-I Vol.J82-D-I No.2 pp.391-400 1999年2月]の理論を応用することができる。KeyGraphとは、ある文書中に出現する単語の出現頻度と共起関係から関連グラフを作成し、この関連グラフにより文書の主張点を把握し、キーワードを抽出する手法である。

図３は、このKeyGraphを用いて関連語の抽出を行う処理の流れを示すフローチャート、図４および図５はこのKeyGraphによる関連語の抽出処理で作成される関連グラフの例である。ここで、二重丸は文書のキーワードを表し、その他の丸はキーワード候補として抽出された単語、線は単語の共起を示している。

まず、入力テキスト中で出現頻度が高い単語の集合Ｘを抽出する（ステップ３０１）。単語集合Ｘ中で共起度の高い単語対を線（図４、図５の実線）で結ぶ（ステップ３０２）。続いて、誤リンクの一時的な削除を行う（ステップ３０３）。この処理は、キーワード抽出精度を向上させるために、単語集合Ｘについての関連グラフにおいて、弱く連結された部分（そのリンクを取り除くと二つの連結部分グラフに分離される部分）を取り除く処理である。たとえば、図５に示すように、単語ｂと単語ｍとの間のリンクが誤リンクとして削除される。次に、出現頻度は高くないが単語集合Ｘとのつながりが強い（共起度が高い）単語の集合Ｙを抽出する（ステップ３０４）。さらに、単語集合Ｘと単語集合Ｙ間で共起度が高い単語対を線（図４、図５の破線）で結ぶ（ステップ３０５）。続いて、単語の関連を見るために、削除した誤リンクを付け加える（ステップ３０６）。以上により最終的な関連グラフが完成し、この関連グラフから関連語を抽出して関連語ＤＢ６に蓄積（追加）する（ステップ３０７）。

なお、関連グラフからキーワードを抽出する場合には、ステップ３０５の後得られた関連グラフからKeyGraphに基づいて破線で結ばれた単語との共起度の和が大きい（たとえば上位所定数の）単語をキーワードとして抽出すれはよい。あるいは、すべての単語との共起度の和を計算するようにしてもよい。あるいは、KeyGraphに基づいたキーワードの計算対象（破線）の共起度を結果に反映させるように、そのキーワード計算対象の共起度に任意の係数ｋを乗じてすべての単語との共起度の和を計算するようにしてもよい。

図６は、上記の手順により作成された関連グラフの具体例である。ここで、ａ（フランス）、ｂ（ボルドー）、ｃ（ワイン）は相互に関連する単語（関連語）であり、ｄ（日本）の単語はａ、ｂ、ｃのどの単語に対しても関連性のない単語である。ｃ（ａ，ｂ），ｃ（ｂ，ｃ），ｃ（ｃ，ａ）は単語間のつながりの強さを示す共起度を示している。Ｗａ，Ｗｂ，Ｗｃ，Ｗｄは、それぞれの単語ａ，ｂ，ｃ，ｄの重みであり、たとえば、単語ａの重みＷａは、単語ｂとの共起度ｃ（ａ，ｂ）と単語ｃとの共起度ｃ（ｃ，ａ）との和としている。すなわち、単語の重みは、この単語とつながりをもつすべての単語との共起度の和である。なお、共起度の和を求める際に、KeyGraphに基づいたキーワードの計算対象（破線）の共起度を結果に反映させるように、そのキーワード計算対象の共起度に任意の係数ｋを乗じてもよい。

図７は、図６の関連グラフから作成された関連語ＤＢ６の例を示す図である。同図に示すように、この例では、関連語ＤＢ６は、単語、単語の重み、単語に対する関連語、および関連語との共起度で構成されている。ここで、他の単語とのつながりを持たない単語ｄの関連語の項目には、関連語がないことを示す"−"が登録され、共起度は"０"に設定される。

次に、複数のテキストから関連語ＤＢ６を作成する方法を説明する。

図８は図６に示した関連語抽出結果をテキストｄ１からの関連語抽出結果とし、この関連語抽出結果に新規にテキストｄ２の関連語抽出結果を加える方法を示す図である。ここで、Ｗａ（ｄ１）〜Ｗｃ（ｄ１）はテキストｄ１の単語ａ〜単語ｃの重み、Ｗａ（ｄ２）〜Ｗｅ（ｄ２）はテキストｄ２の単語ａ〜単語ｅの重みである。また、ｉは単語の重みに対して与えられる、テキストに応じて与えられる係数である。

テキストｄ１の関連語抽出結果にテキストｄ２の関連語抽出結果を加える場合には、各テキストｄ１，ｄ２間で同一の単語について、テキストｄ１の個々の単語の重みに、テキストｄ２の個々の単語の重み、またはこのテキストｄ２の個々の単語の重みに係数ｉを乗じた値が加えられる。ここで、係数ｉは、テキストの長さなど、テキストによる違いに基づく正規化を行うためのもので、追加するテキストに応じて任意の値が設定される。上記の例は、テキストｄ１を基準にテキストｄ２を正規化しているが、一定の基準で全テキストに対して正規化を行うようにしてもよい。たとえば、単語数で正規化を図る場合、テキスト内に含まれる単語数１０００個を標準とし、あるテキストに出現する単語数をＮとして、係数ｉは、ｉ＝１０００／Ｎで表現することもできる。なお、正規化する必要がなければｉ＝１となる。

図９は、テキストｄ１の関連語抽出結果により作成された関連語ＤＢ６の内容に、テキストｄ２の関連語抽出結果を加えた結果の例を示す図である。この結果、関連語ＤＢ６は、単語、単語の重み、関連語、つながりの強さ、関連語が属するテキスト番号、テキスト内での単語と関連語との共起度（正規化したものを含む）で構成される。ここで、つながりの強さは、各々のテキスト内での単語と関連語との共起度の和である。

この関連語ＤＢ６では、この関連語ＤＢ６のデータを抽出元であるテキストの単位で操作することを可能としている。この操作は、具体的には、時事情報から関連語ＤＢ６を作成する際、一定期間経過した過去の情報を、関連語ＤＢ６から削除したり、テキスト単位の単語の重みを小さくして関連語ＤＢ６に及ぼす影響を少なくする場合などに行われる。

このようなテキスト単位での関連語ＤＢ６の操作を可能とするために、図９に示したように、関連語ＤＢ６には、個々の関連語がどのテキストに含まれていたものかを示すテキスト番号と、そのテキスト内での単語と関連語との共起度が登録されるようになっているとともに、テキストの属性を管理する手段が設けられている。

テキストの属性を管理する手段としては、具体的には、図１０に示すように、テキストごとに、そのテキストの登録日時や、テキストの長さなどに応じて設定された重みなどの属性情報を管理するデータベース６を別途用意する方法と、関連語ＤＢ６に上記のデータ構造に加えて、テキストの登録日時や重みなどの属性を登録できるようにする方法などが挙げられる。また、関連語ＤＢ６や登録日時や重みなどの属性情報を管理するデータベースは、独自に構築されたものに限らず、ＳＱＬで実現してもかまわない。また、図９に示した関連語ＤＢ６において、単語の重み、つながりの強さは、他のデータから計算によって求めることが可能であるため、関連語ＤＢ６に必ずしも登録される必要はない。また、単語の出現頻度が入手可能な場合は、図３０に示すように、関連語ＤＢ６に出現頻度の要素３８を加えてもよい。

以上、KeyGraphを用いて関連語の抽出を行う場合を前提に本発明に係る実施形態を説明してきたが、本発明は、テキスト内の単語間の関連の強さを定量的に算出して関連語を抽出できる手法であれば、KeyGraph以外の手法を用いて実現してもよい。

図９に示した関連語ＤＢ６における単語の重みは、たとえば「話題キーワード」としてキーワードを抽出するための指標として用いることができる。また、関連語ＤＢ６におけるつながりの強さは、ある指定単語とつながりの強い単語（関連語）を順位を付けて抽出するための指標として用いることができる。具体的には、関連語をつながりの強さ順にソートするための条件として利用することができる。

図１１は、つながりの強さに基づく関連語の検索例である。これは、単語ａとのつながりが最も強い単語として単語ｂが検索され、単語ｂとのつながりがａの単語の次に強い単語として単語ｅが検索され、続いて単語ｃが検索されたことを示している。このようにして、単語ａといえば単語ｂ、単語ｂといえば単語ｅ、単語ｅといえば単語ｃといった、単語のつながりを抽出することもできる。

本実施形態の関連語ＤＢ６は、たとえば、ＰＣ（Personal Computer）、ＰＤＡ(Personal Digital(Data) Assistants)、携帯電話、テレビジョンセット、デジタルカメラ、デジタルビデオカメラなどの様々な電子機器装置に組み込んで利用することが可能である。

図１２は、本実施形態の関連語ＤＢ６を組み込んだ電子機器装置１００の構成例を示す図である。同図に示すように、この電子機器装置１００は、処理演算部としてのＣＰＵ（Central Processing Unit）２１、メインメモリ２２、プログラム／データ記憶部２
３、インターネットなどのネットワーク２４との接続を処理するネットワークインタフェース部２５、ユーザに情報を視覚的に提供する表示デバイス２６、ＶＲＡＭ(Video Random Access Memory)２７を用いて表示デバイス２６の画面への描画処理を行うグラフィックコントローラ２８、ユーザに聴覚的に情報を提供するスピーカ２９、ユーザの操作入力部３０からの入力を処理するユーザインタフェースコントローラ３１、そして以上の各部の間で信号を伝達するためのバス３２を備える。

ＣＰＵ２１は、たとえばプログラム／データ記憶部２３に記憶されたプログラムやデータ、ユーザによる操作入力部３０からの入力などに基づき、メインメモリ２２をワークエリアとして用いて各種の演算処理や制御を実行する。

メインメモリ２２は、たとえば、ＲＡＭ（Random Access Memory）などの、ランダムに読み取りと書き込みが可能な高速なメモリからなる。

プログラム／データ記憶部２３は、読み取り専用あるいは読み書き可能な不揮発性の記憶装置であり、たとえばＲＯＭ（Read Only Memory）、フラッシュＲＯＭ、ディスクドライブなどである。このプログラム／データ記憶部２３には、上述した関連語ＤＢ作成システム１や、この関連語ＤＢ作成システム１によって作成された関連語ＤＢ６から関連語を抽出するシステム（後述する）などをコンピュータにおいて機能させるためのプログラムなどが記憶されている。さらに、このプログラム／データ記憶部２３には、関連語抽出システムによって抽出された関連語を用いて特定の処理を行うアプリケーション・プログラムなども記憶されている。

表示デバイス２６は、具体的には、ＣＲＴ（Cathode Ray Tube）、ＬＣＤ（Liquid Crystal Display）、ＰＤＰ(Plasma Display Panel)、ＯＥＬ(Organic Electroluminescence)などである。

ユーザの操作入力部３０は、具体的には、簡易キーボード、ＩＲ(Infrared)リモートコントローラ、ジョグダイヤル、プッシュボタン、ソフトウェアキーボードなどである。

ネットワークインタフェース部２５は、たとえばアナログモデム、ＬＡＮ(Local Area Network)、ＩＳＤＮ(Integrated Services Digital Network)、ＡＤＳＬ(Asymmetric Digital Subscriber Line)、ＦＴＴＨ(Fiber-To-The-Home)、Ｂｌｕｅｔｏｏｔｈ、ＦＯＭＡ（Ｗ−ＣＤＭＡ）などである。

図１３は、関連語ＤＢ作成システム１によって作成された関連語ＤＢ６から関連語を抽出するシステム１０の構成を示す図である。同図に示すように、この関連語抽出システム１０は、関連語ＤＢ６と、入力されたキーワードに基づき関連語ＤＢ６を検索して、たとえば、関連語を出力したり、入力キーワードと関連語との組み合わせからなる関連語リストを出力するマッチングエンジン８とにより構成される。マッチングエンジン８の出力はアプリケーションに渡され、特定の処理に供されることになる。

次に、この関連語抽出システム１０を利用したアプリケーションの例を説明する。

関連語抽出システム１０の出力は表示デバイス２６の画面を通して、ユーザに任意の関連語を選択させるためのインタフェースの実現に利用できる。

たとえば、関連語抽出システム１０より得られた関連語をキーボード入力の際の入力補助に利用できる。具体的には、図１４に示すように、表示デバイス２６の画面に表示されたソフトウェアキーボード９による入力の際に、入力済みの文字に一致する単語（キーワード）９ａを関連語リストから検索し、この検索したキーワード９ａに対する関連語を変換候補９ｂとして表示する。関連語を変換候補９ｂとして表示する際、重みの大きい関連語を優先的に表示するようにする。図１４の例では、「ブッシュ」まで入力されたところで、この「ブッシュ」の関連語である「プレッツェル」が変換候補９ｂとして表示された場合を示している。このようにユーザが意図するキーワードに対する関連語が候補として表示されることで、ユーザは自分の予測や知識の範囲を越えた関連語を取得することができ、ユーザに対して新鮮な知識や楽しみを提供できるようになる。

図１５は、関連語抽出システム１０を携帯電話へ適応した場合のアプリケーションの例である。これは、携帯電話の表示デバイス２６の画面上で、たとえば「かに」という単語９ａを入力すると、その関連語である「カニフォーク」が変換候補９ｂとして表示されるというものである。

また、関連語抽出システム１０は、キーワードによるテレビ放送の自動録画にも応用できる。具体的には、ユーザが入力したキーワードとこの入力キーワードに関連した番組を関連語ＤＢ６より検索して、その中からユーザにより選択された番組を自動録画するといった仕組みを実現できる。たとえば、図９に示した関連語ＤＢ６を例にとると、単語ａというキーワードが入力されたとき、これに関連する単語ｂ，単語ｃ，単語ｄ，単語ｅのいずれかを含む番組が自動録画の候補番組として抽出される。さらには、単語ａに関連したテキストを抽出し、リストにして出力するといった関連テキスト検索にも、上記の関連語抽出システム１０は応用できる。

また、関連語ＤＢ６より抽出された複数の関連語をこれらの相互のつながりとともに図表化して関連語グラフとして出力するようにしてもよい。

図１６は、この関連語グラフを図表化（プロット）して出力するシステム１２のブロック図である。関連語グラフプロット部１３は、関連語ＤＢ６のデータに基づき、表示デバイス２６に表示させる関連語グラフの作成を行う。その際、関連語ＤＢ６に登録されたすべての関連語あるいは特定の分野の関連語からなる関連語グラフを作成する方法、ユーザから入力されたキーワードに対する関連語を関連語ＤＢ６より抽出して、入力キーワードと関連語とで構成される関連語グラフを作成する方法がある。

図１７は、関連語グラフ１４を上記の携帯電話などの入力補助機能に利用した例である。「かに」というキーワードが入力された後、たとえば関連語の表示を指示するボタンなどが押されると、図１７に示すように、入力キーワードと、関連語と、つながりのある単語（キーワード、関連語）どうしを接続する線とで構成される関連語グラフ１４を表示する「関連語選択」という画面１５が現れる。この画面１５に表示された関連語グラフ１４において、入力キーワードは関連語グラフ１４の中心に配置され、その周囲にキーワードが配置されている。また、関連語グラフ１４の初期表示状態においては、入力キーワードにフォーカスが当てられて選択状態となっており、カーソルキーなどの操作によりフォーカスの位置を移動させることで目的の関連語を選択して入力することが可能とされている。ここでは携帯電話の例を示したが、この関連語グラフ１４を用いた入力補助機能は、その他様々な種類の電子機器装置に利用できることは言うまでもない。ここでは携帯電話の例を示したが、この関連語グラフ１４を用いた入力補助機能は、その他様々な種類の電子機器装置に利用できることは言うまでもない。

なお、関連語グラフのプロット法には、グラフ理論を適応してもよいし、碁盤の目上に配置するといったシステムに応じた表示形式でよい。

上記の関連語グラフ１４は、ＥＰＧ（Electronic Program Guide：電子番組ガイド）からのテレビ放送の自動録画における番組選択にも利用することができる。

たとえば、ＥＰＧより関連語ＤＢ６を作成しておき、関連語グラフプロット部１３にて、関連語ＤＢ６に登録されたすべての関連語あるいは特定の分野の関連語からなる関連語グラフ１４を作成して表示する。図１８は、テレビセットなどの電子機器装置１００の表示デバイス２６の画面にＥＰＧの関連語グラフ１４を表示させた例である。このＥＰＧの関連語グラフ１４の中から、テレビセットに付属するリモートコントローラなどの入力操作部を使ってユーザが一つの関連語にフォーカスを移動させることなどによって選択すると、この選択された関連語に関係する番組の一覧がサブ画面１６に表示される。なお、関連語に関係する番組を検索することができるように、あらかじめ関連語と番組との対応表を作成しておく必要がある。この後、サブ画面１６に表示された番組の一覧から希望する番組がユーザにより選択されることで、その選択番組の録画予約が行われる。なお、番組一覧に表示する番組は、一覧表示でもよいし、ユーザの嗜好にマッチしたもののみを表示してもよい。図１８は、ＥＰＧの関連語グラフ１４の中から「野球」が選択されることで、サブ画面１６に野球の番組に関する情報の一覧が表示され、この一覧から録画予約する番組の選択が行われることを示している。

また、この関連語ＤＢ６のすべての関連語あるいは特定の分野の関連語から作成された関連語グラフ１４からのオブジェクトの選択は、ＥＰＧからの番組予約だけではなく、ハードディスクドライブなどのストレージデバイスに保存してある番組の検索にも可であるし、ウェブ検索にも適用できる。さらに、ウェブブラウザのブックマーク機能にも応用することができる。ブックマーク機能とは、一般には、ウェブ上のコンテンツにおいて、特定のページ位置を記録しておき、その中から任意のページ位置を選択すれば、そのページ位置のコンテンツを取得することのできる機能である。このブックマークを集めたファイルを入力テキストとして関連語ＤＢ６を作成し、このブックマークの関連語ＤＢ６の内容から関連語グラフを作成することによって、ユーザは言葉の関連を辿って目的のブックマークや、目的のブックマークに関連するブックマークを見つけ出して選択することができ、関連するコンテンツを続けて取得する場合の効率が向上する。もちろん、ウェブ上のコンテンツに限らず、検索可能なコンテンツ全般に関連語グラフを用いた検索を利用できる。

関連語グラフの表示には階層的な形態を採り入れてもよい。たとえば、ある単語を選択するとその単語に関連する関連語グラフが表示され、その中のある関連語を選択すると、その関連語に関連する関連語グラフが表示されるといったものが考えられる。

また、関連語グラフを、その関連語の抽出元であるテキストの単位で表示するようにしてもよい。図１９は、テキスト単位の関連語グラフ１４の表示例であり、ジョグダイヤルなどの操作に応じて、テキスト単位の関連語グラフ１４ａ，１４ｂ，１４ｃ，１４ｄが一つずつ連続的に切り替わって表示される様子を示している。

また、関連語グラフの表示においては、たとえば、図２０に示すように、単語の文字とともにその単語のイメージ画像１７を表示するようにしてもよい。これにより単語の意味のより直感的な認識が可能になる。イメージ画像１７はウェブから取得したものを利用してもよい。描画速度を考慮して、ユーザにより単語が選択されてはじめてイメージ画像１７が表示されるようにしてもよい。

次に、複数のテキストからの関連語抽出結果に基づいて求められた単語間のつながり強さから、テキスト間のつながりの強さを求める方法について説明する。

例として、図２１に示すように、４つのテキストｄ１，ｄ２，ｄ３，ｄ４を考え、これらのテキストｄ１，ｄ２，ｄ３，ｄ４からの関連語抽出結果を加算して作成された関連語ＤＢ６の内容を図２２に示す。また、この関連語ＤＢ６の作成に伴って作成された、テキストの属性を管理するデータベース７の内容を図２３に示す。ここで、テキストの重みとして、テキストｄ１には"１"、テキストｄ２には"１（ｉ）"、テキストｄ３には"０．８（ｊ）"、テキストｄ４には"０．５（ｋ）"がそれぞれ与えられており、関連語ＤＢ６に反映されている。

以上の図２２の関連語ＤＢ６と図２３のテキストの属性を管理するデータベース７を例として、テキスト間のつながりの強さを求める方法について説明する。

テキスト間のつながりの強さを求める方法には次の３つの方法がある。

図２４は、その第１の方法を示す図である。この方法は、１つのテキストに存在する単語が他のテキストに存在する場合に、そのテキスト間で共通の単語の数に基づいて当該テキスト間のつながり強さを求める方法である。求められたテキスト間のつながり強さは、データベース７に、関連テキスト番号とともに登録される。なお、関連テキスト番号はテキストのタイトルであってもよい。このような関連語ＤＢ６は、ＳＱＬなどの既存のデータベースシステムに構築してもかまわない。たとえば、テキストｄ１とテキストｄ２との関係について説明すると、両テキストｄ１，ｄ２には単語ａ，ｂ，ｃ，ｄの４つが共通に存在するので、つながり強さは"４"になる。このようにして求められたテキスト間の関連性は、図２５に示すように、関連テキストグラフ１８として表示される。

図２６は、第２の方法を示す図である。この方法は、図２４の第１の方法で求めた結果から、１つのテキスト内で孤立した単語（他の単語との関連を持たない単語）を排除して、テキスト間のつながり強さを求める方法である。たとえば、テキストｄ１とテキストｄ２との関係について説明すると、両テキストｄ１，ｄ２には単語ａ，ｂ，ｃ，ｄの４つが共通に存在するが、テキストｄ１の単語ｄは孤立しているので、つながり強さは"３"になる。図２７は、この第２の方法で求められたテキスト間のつながりの強さから作成された関連テキストグラフ２７である。

図２８は、第３の方法を示す図である。この方法は、テキスト間で共通のエッジ（線）の数に基づいて当該テキスト間のつながり強さを求める方法である。たとえば、テキストｄ１とテキストｄ２との関係について説明すると、両テキストｄ１，ｄ２にはｃ（ｂ，ｃ）というエッジが共通に存在するので、つながり強さは"１"になる。図２９は、この第３の方法で求められたテキスト間のつながりの強さから作成された関連テキストグラフ２７である。

このように、複数のテキストの関連の強さを算出してデータベース７に登録しておくことで、関連するテキストの検索を、関連の強さを基に行うことが可能となる。また、複数のテキストの関連を、関連の強さとともに図表化して関連テキストグラフ１８として表示できるようにしたことによって、ユーザが一目で関連テキストを見つけ出すことができる。

以上説明したテキスト間のつながりの強さの計算にテキスト間の同じ単語の数、同じエッジ（線）の数を用いたが、他の方法として、たとえばテキスト間の同じ単語の重みの和、同じエッジの共起度の和というように、単語の重みや、共起度を利用してもよい。この他にも、各テキストから関連語として抽出された単語の重みに基づいて各々のテキストベクトルを生成し、これらのテキストベクトルの内積を計算してテキスト間の類似度を求め、この類似度をテキスト間のつながりの強さとする方法もある。

また、以上のようにして求められたテキスト間のつながりの強さを応用して、複数テキストを自動分類する仕組みを容易に実現できる。

以上説明したように、この実施形態によれば、既存の関連語ＤＢ６に、新たなテキストからの関連語抽出結果を正しくマージした関連語ＤＢ６を、比較的少ない計算量で作成することができ、非力なＣＰＵを用いた電子機器装置においても関連語ＤＢ６の更新を高速に行うことができる。この関連語ＤＢ６を単語の入力支援機能に利用することによって、自分の予測や知識の範囲を越えた関連語が候補として得られ、多彩な語彙の入力が可能になる。また、分野の一致した複数のテキストから関連語ＤＢ６を作成すれば、その分野の言葉に限定された関連語ＤＢ６が得られ、ユーザの意図する単語が汎用辞書を用いたときに比べて速やかに入力することが可能になる。

さらに、求められた単語の重みに対して、各テキストの単語数などの違いに応じた正規化を行うことによって、それぞれのテキストにおける単語の重み算出基準を一致させることができ、関連語ＤＢ６の更新を正当に行うことができる。

また、関連語ＤＢ６の単語の重みをテキスト単位で管理する機能を有することによって、一定期間が経過した過去のデータを、関連語ＤＢ６から削除したり、テキスト単位の単語の重みを小さくして関連語ＤＢ６に及ぼす影響を少なくするなど、関連語ＤＢ６の内容をテキストの単位で操作することが可能になる。

さらに、複数の関連語を相互のつながりとともに視覚化して関連語グラフ１４として出力することによって、ユーザが関連語を一望することが可能になり、ユーザの意図する単語を速やかに見つけ出せるようになる。

なお、本発明は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。

本発明の一実施形態にかかる関連語データベース（ＤＢ）作成装置の構成を示すブロック図である。図１の関連語ＤＢ作成システムの処理手順を示すフローチャートである。 KeyGraphを用いて関連語の抽出を行う処理の流れを示すフローチャートである。 KeyGraphによるキーワード・関連語の抽出処理で作成される関連グラフを示す図である。図４の関連グラフにおいて弱い連結部分の取り除きを示す図である。 KeyGraphによるキーワード・関連語の抽出処理で作成される関連グラフの具体例を示す図である。図６の関連グラフから作成された関連語ＤＢの例を示す図である。２つのテキストの関連語抽出結果を加算する方法を示す図である。２つのテキストの関連語抽出結果を加算することによって更新された関連語ＤＢの例を示す図である。テキストの属性を管理するデータベースの構成を示す図である。つながりの強さに基づく関連語の検索例を示す図である。図１の関連語ＤＢ作成システムおよびこれによって作成された関連語ＤＢから関連語を抽出するシステムなどを組み込んだ電子機器装置の構成例を示す図である。図１の関連語ＤＢ作成システムによって作成された関連語ＤＢから関連語を抽出するシステムのブロック図である。図１３の関連語抽出システムの出力をソフトウェアキーボードの入力補助機能に適用した例を示す図である。図１３の関連語抽出システムを携帯電話へ適応した場合のアプリケーションの例を示す図である。関連語グラフを図表化して出力するシステムのブロック図である。関連語グラフを携帯電話などの入力補助機能に利用した例を示す図である。テレビセットの表示デバイスにＥＰＧの関連語グラフを表示させた例を示す図である。テキスト単位の関連語グラフの表示例を示す図である。画像イメージを用いた関連語グラフの表示例を示す図である。４つのテキストの関連語抽出結果を加算した例を示す図である。図２１の関連語抽出結果の加算によって作成された関連語ＤＢの例を示す図である。図２２の関連語ＤＢに関してテキストの属性を管理するデータベースの例を示す図である。テキスト間のつながりの強さを求める第１の方法を示す図である。図２４に対応する関連テキストグラフの表示例を示す図である。テキスト間のつながりの強さを求める第２の方法を示す図である。図２６に対応する関連テキストグラフの表示例を示す図である。テキスト間のつながりの強さを求める第３の方法を示す図である。図２８に対応する関連テキストグラフの表示例を示す図である。出現頻度の要素が付加された関連語ＤＢの構成を示す図である。

符号の説明

１関連語ＤＢ作成システム
２形態素解析部
３辞書
４単語抽出エンジン
５関連語抽出エンジン
６関連語ＤＢ
７データベース
８マッチングエンジン
９ソフトウェアキーボード
１０関連語抽出システム
１３関連語グラフプロット部
１４関連語グラフ
１８関連テキストグラフ
２１ＣＰＵ
２２メインメモリ
２３プログラム／データ記憶部
１００電子機器装置

Claims

テキストを入力するテキスト入力部と、
前記テキスト入力部より入力されたテキストから単語を抽出する単語抽出部と、
前記単語抽出部により抽出された単語の中から互いに関連する単語を関連語として抽出し、抽出した単語間の関連の強さの値をそれぞれ求め、抽出された個々の単語について、この単語と関連するすべての単語との関連の強さの値の和を当該個々の単語の重みとして求めて、この単語の重みを要素として含む関連語データベースを作成し、新たなテキストに対する関連語の処理結果で前記関連語データベースを更新するとき、前記関連語データベースの既存の単語の重みに、新たに求められた単語の重みを加算する関連語抽出部と
を具備することを特徴とする電子機器装置。
前記関連語抽出部は、前記求められた単語の重みに対して、前記各テキストの違いに応じた正規化を行う機能を有することを特徴とする請求項１に記載の電子機器装置。
前記関連語抽出部は、前記関連語データベース中の単語の重みをテキスト単位で管理する機能を有することを特徴とする請求項１に記載の電子機器装置。
前記関連語抽出部は、単語の出現頻度と単語間の共起度から関連語の抽出を行い、共起度を単語と関連語との関連の強さの値として用いることを特徴とする請求項１に記載の電子機器装置。
キーワードを入力するキーワード入力部と、
前記キーワード入力部より入力されたキーワードに関連する単語を、前記単語の重みを条件として前記関連語データベースより検索する関連語検索部と
をさらに具備することを特徴とする請求項１に記載の電子機器装置。
前記関連語検索部により検索された単語を入力単語の候補として処理する機能をさらに具備することを特徴とする請求項５に記載の電子機器装置。
前記関連語検索部によって前記関連語データベースより検索された複数の関連語をこれらの相互のつながりとともに図表化して関連語グラフとして出力する関連語グラフプロット部をさらに有することを特徴とする請求項５に記載の電子機器装置。
前記関連語グラフで任意の単語を選択させ、選択された単語を入力単語の候補として処理する機能をさらに具備することを特徴とする請求項７に記載の電子機器装置。
前記関連語データベースに登録された複数の関連語をこれらの相互のつながりとともに図表化して関連語グラフとして出力する関連語グラフプロット部をさらに有することを特徴とする請求項１に記載の電子機器装置。
前記関連語グラフで任意の単語を選択させ、選択された単語に応じた処理を行う機能をさらに具備することを特徴とする請求項９に記載の電子機器装置。
前記関連語データベースに登録された、テキスト間で共通する単語の数に基づいて、当該テキスト間の関連の強さを算出して、複数のテキストをこれらの関連の強さとともに図表化して関連テキストグラフとして出力する機能をさらに有することを特徴とする請求項１に記載の電子機器装置。
複数のテキストをこれらの関連の強さとともに図表化して関連テキストグラフとして出力する機能をさらに有することを特徴とする請求項１１に記載の電子機器装置。
前記関連語データベースに登録された、テキスト間で共通する、共起する単語対の数に基づいて、当該テキスト間の関連の強さを算出して、複数のテキストをこれらの関連の強さとともに図表化して関連テキストグラフとして出力する機能をさらに有することを特徴とする請求項４に記載の電子機器装置。
複数のテキストをこれらの関連の強さとともに図表化して関連テキストグラフとして出力する機能をさらに有することを特徴とする請求項１１に記載の電子機器装置。
テキストを入力するステップと、
前記入力されたテキストから演算処理部にて単語を抽出するステップと、
前記抽出された単語の中から、前記演算処理部にて、互いに関連する単語を関連語として抽出するステップと、
抽出された単語間の関連の強さの値を前記演算処理部にてそれぞれ求めるとともに、抽出された個々の単語について、この単語と関連するすべての単語との関連の強さの値の和を当該個々の単語の重みとして前記演算処理部にて求め、この単語の重みを要素として含む関連語データベースを作成して記憶部に記憶するステップと、
新たに入力されたテキストに対する関連語の処理結果で前記記憶部に記憶されている前記関連語データベースを更新するとき、前記関連語データベースの既存の単語の重みに、新たに求められた単語の重みを前記演算処理部にて加算するステップと
を有することを特徴とする関連語データベースの更新方法。
コンピュータを、
テキストを入力するテキスト入力部と、
前記テキスト入力部より入力されたテキストから単語を抽出する単語抽出部と、
前記単語抽出部により抽出された単語の中から関連する単語を関連語として抽出し、抽出した単語間の関連の強さの値をそれぞれ求め、抽出された個々の単語について、この単語に関連するすべて単語との関連の強さの値の和を当該個々の単語の重みとして求めて、この単語の重みを要素として含む関連語データベースを作成し、新たなテキストに対する関連語の処理結果で前記関連語データベースを更新するとき、前記関連語データベースの既存の単語の重みに新たに求められた単語の重みを加算する関連語抽出部と
として機能させることを特徴とするプログラム。