JP2005135113A - 電子機器装置、関連語抽出方法及びプログラム - Google Patents

電子機器装置、関連語抽出方法及びプログラム Download PDF

Info

Publication number
JP2005135113A
JP2005135113A JP2003369525A JP2003369525A JP2005135113A JP 2005135113 A JP2005135113 A JP 2005135113A JP 2003369525 A JP2003369525 A JP 2003369525A JP 2003369525 A JP2003369525 A JP 2003369525A JP 2005135113 A JP2005135113 A JP 2005135113A
Authority
JP
Japan
Prior art keywords
word
related word
words
unit
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003369525A
Other languages
English (en)
Inventor
Daisuke Yano
大介 矢野
Hirotaka Kondo
広隆 近藤
Naomasa Takahashi
巨成 高橋
Toshio Nakao
利雄 中尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2003369525A priority Critical patent/JP2005135113A/ja
Publication of JP2005135113A publication Critical patent/JP2005135113A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 入力されたキーワードに対する適切な関連語を抽出することのできる関連語抽出機構を提供する。
【解決手段】 この関連語抽出機構は、入力されたテキストからキーワードである単語とその関連語を抽出して関連語DB2を作成するための関連語DB作成エンジン6と、ユーザより入力されたキーワードに対する関連語を関連語DB2より検索し、入力キーワードとその関連語の組み合わせを出力するマッチングエンジン5とを有する。関連語DB作成エンジン6は、入力されたテキストから単語を抽出し、抽出された単語の中から出現頻度と単語間の共起度に基づいてキーワードとその関連語の抽出を行う。
【選択図】 図1

Description

本発明は、任意の入力キーワードに対する関連語の抽出を行う技術に係り、かかる関連語抽出機構を実装した電子機器装置、関連語抽出方法及びプログラムに関するものである。
これまでの検索エンジンが検索情報を絞り込みを目的とするのに対し、検索結果を広げていくことを目的とした検索技術として「といえば検索」がある。この「といえば検索」は「○○といえば××」といった関係を文書単位で自動的に検索・認識し、類似した文書を分類するものである。
この「といえば検索」の具体的な処理の流れは以下の通りである。まず、文書から形態素解析により単語を切り出し、単語毎の出現頻度を算出して個々の単語の重要度を決定する。続いて、個々の単語の重要度に基づき文書の特徴ベクトルを計算する。そして、各文書どうしの特徴ベクトルを比較して文書間の類似度を計算し、類似度が高い文書を関連付けてデータベースに格納する(たとえば特許文献1を参照)。
特開2002−245067公報
しかしながら、一般に、「といえば検索」を採用した検索システムは、類似文書の検索に特化されたものであり、単語の単位で類似するもの(関連語)を抽出することには利用できなかった。
本発明は、このような事情を鑑み、入力されたキーワードに対して適切な関連語を抽出することのできる電子機器装置、関連語抽出方法及びプログラムを提供することを目的とするものである。
上記の課題を解決するために、本発明の電子機器装置は、テキストを入力するテキスト入力部と、前記テキスト入力部により入力された前記テキストからキーワードである単語とその関連語を抽出して関連語データベースを作成する関連語データベース作成部と、キーワードを入力するキーワード入力部と、前記キーワード入力部により入力された前記キーワードに対する関連語を、前記関連語データベース作成部により作成された前記関連語データベースより検索する関連語検索部とを具備することを特徴とする。
この発明によれば、キーワードを入力すれば、このキーワードに対応する関連語が関連語データベースの検索によって自動的に得られる。また、テキストを入力するだけで関連語データベースを作成でき、ユーザの選択した入力テキストの入力により、ユーザの嗜好に合った関連語の抽出が可能になる。
関連語データベース作成部は、テキスト入力部により入力されたテキストから単語を抽出する単語抽出部と、単語抽出部により抽出された単語の中から出現頻度と単語間の共起度に基づいてキーワードとその関連語を抽出する関連語抽出部とを備えて構成されるものであってよく、これにより、単語の出現頻度と単語間の共起度に基づいて抽出されたキーワードとその関連語により関連語データベースを作成することで、キーワードとその関連語とが適切に対応付けられた関連語データベースを得ることができる。
また、関連語データベース作成部は、テキスト入力部により入力されたテキストを形態素解析により単語に分割する形態素解析部をさらに有し、単語抽出部は、形態素解析部により分割された単語から所定の選定基準に従って単語を選定するとともに、所定の連結規則に従って複数の単語を連結して一つの単語として生成し、選定した単語および連結により生成された単語を、単語抽出結果として出力するものとしてもよい。これにより、関連語データベースにキーワードおよび関連語として格納するには不向きな単語を排除することができるとともに、連結することによって一つの意味を持つ単語を漏らさずに関連語データベースに登録することができる。
本発明の別の観点に基づく関連語抽出方法は、テキストを入力するステップと、前記入力されたテキストからキーワードである単語とその関連語を抽出して関連語データベースを作成するステップと、キーワードを入力するステップと、前記入力されたキーワードに対する関連語を、前記作成された前記関連語データベースを検索して取得するステップとを有するものである。
この発明によれば、キーワードを入力すれば、このキーワードに対応する関連語が関連語データベースの検索によって自動的に得られる。また、テキストを入力するだけで関連語データベースを作成でき、ユーザの選択した入力テキストの入力により、ユーザの嗜好に合った関連語の抽出が可能になる。
また、この発明の関連語抽出方法において、関連語データベースを作成するにあたっては、テキストから単語を抽出し、抽出された単語の中から出現頻度と単語間の共起度に基づいて関連語を抽出するようにしてもよく、このように単語の出現頻度と単語間の共起度に基づいて抽出されたキーワードとその関連語により関連語データベースを作成することで、キーワードとその関連語とが適切に対応付けられた関連語データベースを得ることができる。
また、この発明の関連語抽出方法において、テキストから単語を抽出するにあたっては、入力されたテキストを形態素解析により単語に分割し、分割された単語から所定の選定基準に従って単語を選定するとともに、所定の連結規則に従って複数の単語を連結して一つの単語として生成し、選定した単語および連結により生成された単語を、単語抽出結果として出力するようにしてもよく、これにより、関連語データベースにキーワードおよび関連語として格納するには不向きな単語を排除することができるとともに、連結することによって一つの意味を持つ単語を漏らさずに関連語データベースに登録することができる。
さらに、本発明の別の観点に基づくプログラムは、テキストを入力するテキスト入力部と、前記テキスト入力部により入力された前記テキストからキーワードである単語とその関連語を抽出して関連語データベースを作成する関連語データベース作成部と、キーワードを入力するキーワード入力部と、前記キーワード入力部により入力された前記キーワードに対する関連語を、前記関連語データベース作成部により作成された前記関連語データベースより検索する関連語検索部としてコンピュータを機能させるものである。
この発明のプログラムによれば、キーワードを入力すれば、このキーワードに対応する関連語が関連語データベースの検索によって自動的に得られる。また、テキストを入力するだけで関連語データベースを作成でき、ユーザの選択した入力テキストの入力により、ユーザの嗜好に合った関連語の抽出が可能になる。
また、このプログラムにおいて、関連語データベース作成部は、テキスト入力部により入力されたテキストから単語を抽出する単語抽出部と、単語抽出部により抽出された単語の中から出現頻度と単語間の共起度に基づいてキーワードとその関連語を抽出する関連語抽出部とを備えて構成されるものであってよく、これにより、単語の出現頻度と単語間の共起度に基づいて抽出されたキーワードとその関連語により関連語データベースを作成することで、キーワードとその関連語とが適切に対応付けられた関連語データベースを得ることができる。
さらに、このプログラムにおいて、関連語データベース作成部は、テキスト入力部により入力されたテキストを形態素解析により単語に分割する形態素解析部をさらに有し、単語抽出部は、形態素解析部により分割された単語から所定の選定基準に従って単語を選定するとともに、所定の連結規則に従って複数の単語を連結して一つの単語として生成し、選定した単語および連結により生成された単語を、単語抽出結果として出力するものとしてもよい。これにより、関連語データベースにキーワードおよび関連語として格納するには不向きな単語を排除することができるとともに、連結することによって一つの意味を持つ単語を漏らさずに関連語データベースに登録することができる。
本発明によれば、入力されたキーワードに対して適切な関連語を抽出することができ、抽出した関連語を様々な特定用途のアプリケーションにて利用することができる。
以下、本発明の実施の形態を図面に基づき説明する。
図1は、本発明の一実施形態にかかる関連語抽出機構1の構成を示すブロック図である。
同図に示すように、関連語抽出機構1は、キーワードである単語に対する関連語が複数(多数)蓄積されている関連語データベース(以下「関連語DB」と呼ぶ。)2と、入力されたキーワード3に対する関連語を関連語DB2より検索して入力キーワードと関連語とからなる関連語リスト4を出力する関連語検索部であるマッチングエンジン5と、関連語データベース作成部である関連語DB作成エンジン6とを備えて構成される。マッチングエンジン5より出力された関連語リスト4は、アプリケーションに渡され、特定の処理が行われるようになっている。
図2は関連語DB2の作成を行う関連語DB作成エンジン6の構成を示す図である。同図に示すように、関連語DB作成エンジン6は、形態素解析部7、辞書8、単語抽出エンジン9および関連語抽出エンジン10を備えて構成される。
図3は関連語DB作成エンジン6による関連語DB2の作成手順を示すフローチャートである。
関連語DB作成エンジン6は、まず、関連語抽出のための情報ソースとして入力されたテキスト11を読み込み(ステップ301)、形態素解析部7に渡す。
形態素解析部7は、読み込んだテキスト11に対する形態素解析を行う(ステップ302)。ここで入力されるテキスト11とは、テキストが抽出できるすべてのコンテンツ、具体的にはウェブページ、メール、TV番組、ストリーミング動画、ストリーミング音楽、メッセンジャーなどである。図4に入力テキスト11の具体例を示す。形態素解析部7は、辞書8を参照しながら、入力テキスト11を構成する文字列を単語の単位に分割し、分割した各単語に品詞や語形変化などの情報を与え、その結果をリストにして出力する。この形態素解析は、入力テキスト11が、単語間に空白を入れる(分かち書きする)習慣のない日本語などの言語の場合に行われ、英語などの単語間に空白を入れる言語の場合は行われる必要がない。ただし、英語などの各単語に対して品詞をつける処理を行い、単語抽出エンジン9で利用する場合も考えられる。図5に図4の入力テキスト11の一部に対する形態素解析の結果である単語リスト12の例を示す。
次に、単語抽出エンジン9は、形態素解析の単語リスト12から、所定の選定基準に従って、関連語DB2に登録すべきものとして最低限の条件を満足する単語を選定する(ステップ303)。図6は単語選定基準13の具体例を示すものである。ここで、選定すべき単語は、特定の品詞、たとえば固有名詞、未知語(辞書8の未登録語)、カタカナ語などであり、品詞は細かく指定できる。施設名、組織名、人名、その他の呼称、国名、都道府県名、市町村名などの固有名詞は、一般的な名詞に比べ、文書の内容を特徴付けるキーワードとなり得る可能性が高い。未知語は一時的な流行語や有名人の名前などである場合が多いので、やはり文書の内容を特徴付けるキーワードとなり得る。カタカナ語も同様である。
また、単語抽出エンジン9は、形態素解析の単語リスト12の複数の単語を所定の単語連結規則に従って連結する(ステップ304)。図7は単語連結規則14の例を示すものである。同図に示すように、「性+名」、「姓+一般名詞+接尾語」、「姓+一般名詞+・・・+名」、「姓+一般名詞+・・・+一般名詞」、「固有名詞+接尾語」、「カタカナ語+・・・+カタカナ語」は、連続する単語の組み合わせのパターンを示している。連続する単語の組み合わせが上記いずれかのパターンに該当するなら、それらの単語は一つに連結され、単語抽出エンジン9の出力に加えられる。
上記の単語連結規則14のうちの「姓+一般名詞+接尾語」の規則は、辞書8に存在しない名などが一般名詞として解析された場合に、「さん」などの接尾辞を基にその一般名詞が名であることを類推することによって、姓名の単語を正しく選定するためのものである。「カタカナ語+・・・+カタカナ語」の規則は、元々一つのカタカナ語であった単語が形態素解析によって複数のカタカナ語に分割されてしまった場合でも、それらのカタカナ語が辞書8にある単語ならば、それらのカタカナ語を連結したものを一つのカタカナ語として選定するためのものである。たとえば、「ソニー」と「ファイナンス」とは一つの単語である「ソニーファイナンス」として選定される。
また、形態素解析のアルゴリズムによっては特殊な記号などが未知語として得られる場合がある。このような場合、単語抽出エンジン9にて、形態素解析の解析結果である単語リスト12から、上記特殊な記号などの未知語を、明らかに言葉として意味を持たない語(不要語)として選定対象から外す。これにより、単語の選定精度をより高めることができる。図8は図5に示した形態素解析の結果からの単語抽出結果の具体例である。
次に、関連語抽出エンジン10にて、単語の出現頻度と単語間の共起度からキーワードとその関連語の抽出が行われ(ステップ305)、抽出されたキーワードとその関連語は関連語DB2に追加される(ステップ306)。
関連語の抽出には、KeyGraph{電子情報通信学会論文誌 D-I Vol.J82-D-I No.2 pp.391-400 1999年2月]の理論を応用することができる。KeyGraphとは、ある文書中に出現する単語の出現頻度と共起関係から関連グラフを作成し、この関連グラフにより文書の主張点を把握し、キーワードを抽出する手法である。
図9は、このKeyGraphを用いてキーワードとその関連語の抽出を行う処理の流れを示すフローチャート、図10および図11はこのKeyGraphによるキーワード・関連語の抽出処理で作成される関連グラフの例である。
まず、入力テキスト中で出現頻度が高い単語の集合Xを抽出する(ステップ901)。単語集合X中で共起度の高い単語対を線(図10の実線)で結ぶ(ステップ902)。続いて、誤リンクの一時的な削除を行う(ステップ903)。この処理は、最終的なキーワード抽出精度を向上させるために、単語集合Xについての関連グラフにおいて、弱く連結された部分(そのリンクを取り除くと二つの連結部分グラフに分離される部分)を一旦取り除くという処理である。たとえば、図11に示すように、単語bと単語mとの間のリンクが誤リンクとして削除される。次に、出現頻度は高くないが単語集合Xとのつながりが強い(共起度が高い)単語の集合Yを抽出する(ステップ904)。さらに、単語集合Xと単語集合Y間で共起度が高い単語対を線(図10の点線)で結ぶ(ステップ905)。単語の関連を見るために、削除した誤リンクを付け加える(ステップ906)。以上により最終的な関連グラフが完成し、この関連グラフからキーワードである単語とその関連語を抽出して関連語DB2に蓄積(追加)する(ステップ907)。
関連グラフからキーワードとその関連語を抽出する方法としては、たとえば、関連グラフにおいて、つながりをもつ他のすべての単語との共起度の和がキーワード判定用に設定された所定の基準値よりも高いもの(図10の二重丸)を入力文書の主張を表す単語つまりキーワードとして抽出し、このキーワードである単語との共起度が関連語判定用に設定された所定の基準値よりも高い単語を、当該キーワードに対する関連語として抽出する方法などが挙げられる。図12は図8に示した単語抽出結果に対して作成された関連グラフの具体例、図13は図12の関連グラフからの関連語抽出結果の具体例である。図13において、二重丸はキーワードであり、このキーワードにリンクをもつ黒丸が関連語であることを示している。
関連語DB2を更新する方法としては、図3の手順が実行される都度上書きによって更新する方法、図3の手順が実行される都度得られた内容をその都度追加して行く方法のどちらを採用してもかまわない。
以上説明した本実施形態の関連語抽出機構1によれば、入力キーワードに対して適切な関連語を抽出することができる。また、関連語DB2の作成は、テキストを関連語抽出機構1に読み込ませることによって自動的に行われるので、関連語DB2を容易にかつ低コストで、構築したり更新したりすることができる。また、ユーザの嗜好に合った内容のテキストを関連語抽出機構1に読み込ませて関連語DB2を作成することで、入力キーワードに対して、ユーザの嗜好に合った関連語を抽出することができるようになる。また、この関連語抽出機構1は、サーバ側、クライアント側のどちらでも利用可能なため、柔軟に導入できる、という利点を有している。
次に、本実施形態の関連語抽出機構1の具体的な実装例を説明する。
本実施形態の関連語抽出機構1は、たとえば、PC(Personal Computer)、PDA(Personal Digital(Data) Assistants)、携帯電話、テレビジョンセット、デジタルカメラ、デジタルビデオカメラなどの表示機能を備えた様々な電子機器装置に組み込んで利用することが可能である。
図14は、本実施形態の関連語抽出機構1を実装した電子機器装置100の構成例を示す図である。同図に示すように、この電子機器装置100は、処理演算部としてのCPU(Central Processing Unit)21、メインメモリ22、プログラム/データ記憶部23、インターネットなどのネットワーク24との接続を処理するネットワークインタフェース部25、ユーザに情報を視覚的に提供する表示デバイス26、VRAM(Video Random Access Memory)27を用いて表示デバイス26の画面への描画処理を行うグラフィックコントローラ28、ユーザに聴覚的に情報を提供するスピーカ29、ユーザの操作入力部30からの入力を処理するユーザインタフェースコントローラ31、そして以上の各部の間で信号を伝達するためのバス32を備える。
CPU21は、たとえばプログラム/データ記憶部23に記憶されたプログラムやデータ、ユーザによる操作入力部30からの入力などに基づき、メインメモリ22をワークエリアとして用いて各種の演算処理や制御を実行する。
メインメモリ22は、たとえば、RAM(Random Access Memory)などの、ランダムに読み取りと書き込みが可能な高速なメモリからなる。
プログラム/データ記憶部23は、読み取り専用あるいは読み書き可能な不揮発性の記憶装置であり、たとえばROM(Read Only Memory)、フラッシュROM、ディスクドライブなどである。このプログラム/データ記憶部23には、上述した関連語抽出機構1をコンピュータにおいて機能させるためのプログラムなど記憶されている。
表示デバイス26は、具体的には、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、OEL(Organic Electroluminescence)などである。
ユーザの操作入力部30は、具体的には、簡易キーボード、IR(Infrared)リモートコントローラ、ジョグダイヤル、プッシュボタン、ソフトウェアキーボードなどである。
ネットワークインタフェース部25は、たとえばアナログモデム、LAN(Local Area Network)、ISDN(Integrated Services Digital Network)、ADSL(Asymmetric Digital Subscriber Line)、FTTH(Fiber-To-The-Home)、Bluetooth、FOMA(W−CDMA)などである。
次に、この電子機器装置100における関連語抽出機構1の具体的な利用方法を説明する。図15は、この電子機器装置100における関連語抽出機構1の実装形態の例を示す図である。
電子機器装置100に実装された関連語抽出機構1において、関連語DB作成エンジン6は、たとえば、インターネット41のクローリング時に収集されたウェブ上のコンテンツ(TV番組、ウェブページ、ストリーミング動画、ストリーミング音楽など)に含まれるテキスト11から上述した処理手順によって関連語を抽出し、関連語DB2の作成および更新を行う。その際、テキストの収集先の場所や、収集する時間周期、時刻などのタイミングをユーザが予め任意に設定できるようにしてもよい。また、ユーザにより指定されたキーワードを基にウェブを検索することによって得られた情報をテキストの収集先としてもよい。
また、電子機器装置100には、関連語DB2を検索するマッチングエンジン5に与えられるキーワード3を自動的に取得する手段として、ユーザ操作監視部42とキーワード抽出部43が設けられている。ユーザ操作監視部42は、ユーザがTV視聴、ウェブ閲覧あるいはメール操作などを行う際の操作入力部30の操作内容、たとえば順に入力されたキーコードの列などを監視・分析してキーワード抽出部43に引き渡す。キーワード抽出部43は、ユーザ操作監視部42の監視結果を取得して単語辞書を参照するなどしてユーザの嗜好を反映したキーワード3を特定し、これをマッチングエンジン5に与える。さらに、キーワード抽出部43は、ユーザが操作入力部30を操作して関連語抽出機構1に直接入力したキーワード3を受け付けてマッチングエンジン5に与えたり、メール文書44の内容を読み込んでキーワード3を抽出したりすることも可能である。マッチングエンジン5は、キーワード抽出部43より与えられたキーワード3に対する関連語を関連語DB2から検索し、入力キーワードと関連語からなる関連語リスト4を出力する。
次に、関連語抽出機構1から出力されるキーワードとその関連語を利用するアプリケーションについて説明する。
関連語抽出機構1より出力されるキーワードとその関連語は、表示デバイス26の画面を通して、ユーザに任意の関連語を選択させるためのインタフェースを実現するために利用される。
たとえば、図16に示すように、セット関連語抽出機構1より出力されるキーワードの一覧が、ユーザの嗜好を反映したお好みキーワードリスト(以下「キーワード窓」と呼ぶ。)46として表示される。なお、同図はテレビジョンセットの場合の例であるが、その他の電子機器装置の場合も同様である。
図17は、キーワード窓46から表示の変化の様子を示す図である。同図に示すように、キーワード窓46には、「といえば・・・」など、キーワードに対する関連語の表示をユーザに動機付けるための文言が付いたボタン47が設けられている。また、キーワード窓46に表示されたキーワードの一覧においては、常に一つのキーワードにこれが選択可能なオブジェクトであることを示すフォーカス48が表示されている。このフォーカス48は、たとえば、文字の色の変化や反転、囲みなど、選択可能なキーワードが他のキーワードに対して視覚的に識別できるように表示するものであり、このフォーカス48の位置は操作入力部30の操作によってユーザが自由に移動させることができる。たとえば、図17に示すテレビジョンセット101の例では、リモートコントローラ49の上下カーソルキー50,51を押すことによってフォーカス48を上下に移動させ、目的のキーワードにフォーカス48を当てることができる。また、個々のキーワードに割り当てて表示されている数字に対応する数字キー52を押すことによっても目的のキーワードにフォーカスを当てて選択状態とすることもできる。
いま、図16に示すキーワード窓46においては、「1.ブッシュ」の位置にフォーカスが当てられている。このとき「といえば・・・」ボタン47がユーザによって操作されると、といえばモードに切り替わって、「ブッシュ」というキーワードに対して関連語抽出機構1により抽出された関連語の一覧を表示した窓(以下「関連語窓」と呼ぶ。)53(図17)が表示される。
さらに、この関連語窓53において、キーワード窓46と同様にフォーカス48を移動させることによって一つの関連語がユーザによって選択されると、その選択された関連語とキーワードとの関係を示す文言55が別の窓54の中に表示される。さらに、選択された関連語に関するコンテンツを取得するためのアクションの選択窓56が表示される。このアクションの選択窓56には、具体的には、ウェブ表示、TV番組の録画予約、ストリーミング音楽、ストリーミング動画などのウェブ上のコンテンツの選択項目57,58,59,60が表示されている。
ここで、ウェブ表示がユーザによって選択された場合、選択された関連語をキーワードとするコンテンツの一覧が表示され、その中からユーザによって選択されたコンテンツについてのウェブ検索の実行がウェブ閲覧用のアプリケーションに指示され、その検索結果であるウェブページが表示される。また、TV番組予約が選択された場合には、選択された関連語をキーワードとするTV番組の一覧が表示され、その中からユーザにより選択されたTV番組の予約が自動的に実行される。同様に、ストリーミング音楽あるいはストリーミング動画が選択された場合には、選択された関連語をキーワードとするストリーミング音楽あるいはストリーミング動画の一覧が表示され、その中からユーザによって選択されたストリーミング音楽あるいはストリーミング動画のダウンロード、再生が自動的に実行される。
また、関連語抽出機構1より得られた関連語はキーボード入力の際の入力補助に利用することが可能である。具体的には、図18に示すように、表示デバイス26の画面に表示されたソフトウェアキーボード61による入力の際に、入力済みの文字62に一致する単語(キーワード)を検索し、この検索したキーワードに対する関連語を、入力単語の候補63として表示する。図の例では、「ブッ」まで入力されたところで、キーワードとして「ブッシュ」が検索され、この「ブッシュ」の関連である「プレッツェル」が、入力単語の候補63として表示された場合を示している。このようにユーザが意図するキーワードに対する関連語が候補として表示されることで、ユーザは自分の予測や知識の範囲を越えたキーワードを取得することができ、ユーザに対して新鮮な知識や楽しみを提供できるようになる。
なお、本発明は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
本発明の一実施形態にかかる関連語抽出機構1の構成を示すブロック図である。 関連語DBの作成を行う関連語DB作成エンジンの構成を示すブロック図である。 図2の関連語DB作成エンジンによる関連語DBの作成手順を示すフローチャートである。 入力テキストの具体例を示す図である。 図4の入力テキストに対する形態素解析の結果の例を示す図である。 単語選定基準の具体例を示す図である。 単語連結規則の例を示す図である。 図5に示した形態素解析の結果からの単語抽出結果の具体例を示す図である。 KeyGraphを用いてキーワードとその関連語の抽出を行う処理の流れを示すフローチャートである。 KeyGraphによるキーワード・関連語の抽出処理で作成される関連グラフの例を示す図である。 関連グラフにおいて弱い連結部分の取り除きを示す図である。 図8に示した単語抽出結果に対して作成された関連グラフの具体例を示す図である。 図12の関連グラフからの関連語抽出結果の具体例を示す図である。 図1の関連語抽出機構1を実装した電子機器装置のハードウェア構成を示す図である。 図14の電子機器装置における関連語抽出機構1の実装形態の例を示す図である。 テレビジョンセットにおける関連語抽出機構1の出力の利用形態を示す図である。 関連語抽出機構1の出力をユーザインタフェース用のアプリケーションに適用した例を示す図である。 関連語抽出機構1の出力をキーボード入力補助に適用した例を示す図である。
符号の説明
1 関連語抽出機構1
2 関連語データベース(関連語DB)
3 入力キーワード
4 関連語リスト
5 マッチングエンジン
6 関連語DB作成エンジン
7 形態素解析部
8 辞書
9 単語抽出エンジン
10 関連語抽出エンジン
11 入力テキスト
12 単語リスト
13 単語選定基準
14 単語連結規則
30 操作入力部
42 ユーザ操作監視部
43 キーワード抽出部
100 電子機器装置

Claims (9)

  1. テキストを入力するテキスト入力部と、
    前記テキスト入力部により入力された前記テキストからキーワードである単語とその関連語を抽出して関連語データベースを作成する関連語データベース作成部と、
    キーワードを入力するキーワード入力部と、
    前記キーワード入力部により入力された前記キーワードに対する関連語を、前記関連語データベース作成部により作成された前記関連語データベースより検索する関連語検索部と
    を具備することを特徴とする電子機器装置。
  2. 前記関連語データベース作成部は、
    前記テキスト入力部により入力されたテキストから単語を抽出する単語抽出部と、
    前記単語抽出部により抽出された単語の中から出現頻度と単語間の共起度に基づいてキーワードとその関連語を抽出する関連語抽出部と
    を有することを特徴とする請求項1に記載の電子機器装置。
  3. 前記関連語データベース作成部は、前記テキスト入力部により入力されたテキストを形態素解析により単語に分割する形態素解析部をさらに有し、
    前記単語抽出部は、前記形態素解析部により分割された単語から所定の選定基準に従って単語を選定するとともに、所定の連結規則に従って複数の単語を連結して一つの単語として生成し、前記選定した単語および前記連結により生成された単語を、単語抽出結果として出力することを特徴とする請求項2に記載の電子機器装置。
  4. テキストを入力するステップと、
    前記入力されたテキストからキーワードである単語とその関連語を抽出して関連語データベースを作成するステップと、
    キーワードを入力するステップと、
    前記入力されたキーワードに対する関連語を、前記作成された前記関連語データベースを検索して取得するステップと
    を有することを特徴とする関連語抽出方法。
  5. 前記関連語データベースを作成するステップは、前記テキストから単語を抽出し、抽出された単語の中から出現頻度と単語間の共起度に基づいてキーワードとその関連語を抽出することを特徴とする請求項4に記載の関連語抽出方法。
  6. 前記テキストから単語を抽出するにあたり、入力されたテキストを形態素解析により単語に分割し、分割された単語から所定の選定基準に従って単語を選定するとともに、所定の連結規則に従って複数の単語を連結して一つの単語として生成し、前記選定した単語および前記連結により生成された単語を、単語抽出結果として出力することを特徴とする請求項5に記載の関連語抽出方法。
  7. テキストを入力するテキスト入力部と、
    前記テキスト入力部により入力された前記テキストからキーワードである単語とその関連語を抽出して関連語データベースを作成する関連語データベース作成部と、
    キーワードを入力するキーワード入力部と、
    前記キーワード入力部により入力された前記キーワードに対する関連語を、前記関連語データベース作成部により作成された前記関連語データベースより検索する関連語検索部としてコンピュータを機能させることを特徴とするプログラム。
  8. 前記関連語データベース作成部は、
    前記テキスト入力部により入力されたテキストから単語を抽出する単語抽出部と、
    前記単語抽出部により抽出された単語の中から出現頻度と単語間の共起度に基づいてキーワードとその関連語を抽出する関連語抽出部と
    を有することを特徴とする請求項7に記載のプログラム。
  9. 前記関連語データベース作成部は、前記テキスト入力部により入力されたテキストを形態素解析により単語に分割する形態素解析部をさらに有し、
    前記単語抽出部は、前記形態素解析部により分割された単語から所定の選定基準に従って単語を選定するとともに、所定の連結規則に従って複数の単語を連結して一つの単語として生成し、前記選定した単語および前記連結により生成された単語を、単語抽出結果として出力することを特徴とする請求項8に記載のプログラム。
JP2003369525A 2003-10-29 2003-10-29 電子機器装置、関連語抽出方法及びプログラム Pending JP2005135113A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003369525A JP2005135113A (ja) 2003-10-29 2003-10-29 電子機器装置、関連語抽出方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003369525A JP2005135113A (ja) 2003-10-29 2003-10-29 電子機器装置、関連語抽出方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2005135113A true JP2005135113A (ja) 2005-05-26

Family

ID=34646850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003369525A Pending JP2005135113A (ja) 2003-10-29 2003-10-29 電子機器装置、関連語抽出方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2005135113A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007004240A (ja) * 2005-06-21 2007-01-11 Hidetsugu Nanba 情報処理装置、情報処理システム、およびプログラム
JP2008071198A (ja) * 2006-09-14 2008-03-27 Ricoh Co Ltd 文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体
JP2009032118A (ja) * 2007-07-27 2009-02-12 Nec Corp 情報構造化装置、情報構造化方法、及びプログラム
JP2009098932A (ja) * 2007-10-17 2009-05-07 Nomura Research Institute Ltd 連想検索システム
JP2010055159A (ja) * 2008-08-26 2010-03-11 Nec Biglobe Ltd 情報検索装置、情報検索方法、およびプログラム
JP2010055155A (ja) * 2008-08-26 2010-03-11 Nec Biglobe Ltd サーバ装置、情報処理方法およびプログラム
JP2010198281A (ja) * 2009-02-25 2010-09-09 Hyogo Prefecture 情報処理装置、情報処理方法、およびプログラム
JP2011014032A (ja) * 2009-07-03 2011-01-20 Fujitsu Ltd 携帯端末装置、情報検索方法および情報検索プログラム
JP2011215897A (ja) * 2010-03-31 2011-10-27 Meiji Univ データベース、類推エンジン及び類推システム
US8108407B2 (en) 2006-11-06 2012-01-31 Panasonic Corporation Informationn retrieval apparatus
JP2012512465A (ja) * 2008-12-12 2012-05-31 アティジオ リミテッド ライアビリティ カンパニー 関心領域についての判定情報を使用した勧告の提供
US8332208B2 (en) 2007-09-05 2012-12-11 Sony Corporation Information processing apparatus, information processing method, and program
JP2013105210A (ja) * 2011-11-10 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 単語属性推定装置及び方法及びプログラム
JP2016071849A (ja) * 2014-09-23 2016-05-09 ネイバー コーポレーションNAVER Corporation メッセンジャの対話内容に基づいて推薦検索語を提供する方法とシステム、および記録媒体
JP2017538198A (ja) * 2014-11-20 2017-12-21 オラクル・インターナショナル・コーポレイション 文脈検索文字列同義語の自動生成

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007004240A (ja) * 2005-06-21 2007-01-11 Hidetsugu Nanba 情報処理装置、情報処理システム、およびプログラム
JP2008071198A (ja) * 2006-09-14 2008-03-27 Ricoh Co Ltd 文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体
US8108407B2 (en) 2006-11-06 2012-01-31 Panasonic Corporation Informationn retrieval apparatus
JP2009032118A (ja) * 2007-07-27 2009-02-12 Nec Corp 情報構造化装置、情報構造化方法、及びプログラム
US8332208B2 (en) 2007-09-05 2012-12-11 Sony Corporation Information processing apparatus, information processing method, and program
JP2009098932A (ja) * 2007-10-17 2009-05-07 Nomura Research Institute Ltd 連想検索システム
JP2010055159A (ja) * 2008-08-26 2010-03-11 Nec Biglobe Ltd 情報検索装置、情報検索方法、およびプログラム
JP2010055155A (ja) * 2008-08-26 2010-03-11 Nec Biglobe Ltd サーバ装置、情報処理方法およびプログラム
US8838616B2 (en) 2008-08-26 2014-09-16 Nec Biglobe, Ltd. Server device for creating list of general words to be excluded from search result
JP4587236B2 (ja) * 2008-08-26 2010-11-24 Necビッグローブ株式会社 情報検索装置、情報検索方法、およびプログラム
JP4640554B2 (ja) * 2008-08-26 2011-03-02 Necビッグローブ株式会社 サーバ装置、情報処理方法およびプログラム
JP2012512465A (ja) * 2008-12-12 2012-05-31 アティジオ リミテッド ライアビリティ カンパニー 関心領域についての判定情報を使用した勧告の提供
JP2010198281A (ja) * 2009-02-25 2010-09-09 Hyogo Prefecture 情報処理装置、情報処理方法、およびプログラム
JP2011014032A (ja) * 2009-07-03 2011-01-20 Fujitsu Ltd 携帯端末装置、情報検索方法および情報検索プログラム
JP2011215897A (ja) * 2010-03-31 2011-10-27 Meiji Univ データベース、類推エンジン及び類推システム
JP2013105210A (ja) * 2011-11-10 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 単語属性推定装置及び方法及びプログラム
JP2016071849A (ja) * 2014-09-23 2016-05-09 ネイバー コーポレーションNAVER Corporation メッセンジャの対話内容に基づいて推薦検索語を提供する方法とシステム、および記録媒体
JP2017538198A (ja) * 2014-11-20 2017-12-21 オラクル・インターナショナル・コーポレイション 文脈検索文字列同義語の自動生成

Similar Documents

Publication Publication Date Title
US6662152B2 (en) Information retrieval apparatus and information retrieval method
JP3598211B2 (ja) 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体
JP3962763B2 (ja) 対話支援装置
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
JP2005135113A (ja) 電子機器装置、関連語抽出方法及びプログラム
JP2000148748A (ja) 仮名漢字変換及び画像検索表示システム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP2007094547A (ja) 情報表示制御装置及びプログラム
JPH10334106A (ja) 関連語提示装置及び関連語提示用プログラムを記録した媒体
US20040024604A1 (en) Chinese phonetic transcription input system and method with comparison function for imperfect and fuzzy phonetic transcriptions
JP2005122665A (ja) 電子機器装置、関連語データベースの更新方法、プログラム
US20120254209A1 (en) Searching method, searching device and recording medium recording a computer program
JP2010067021A (ja) 機械翻訳装置及び機械翻訳プログラム
JP2008225676A (ja) 辞書検索装置及びその制御プログラム
JP2004295578A (ja) 翻訳装置
JP3162907B2 (ja) 文書データ検索装置
JP2018101224A (ja) 検索装置、検索方法、及びプログラム
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP3222193B2 (ja) 情報検索装置
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP2006163645A (ja) 情報検索方法、情報検索装置、情報検索プログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器
JP2003099429A (ja) 用語集生成装置及び用語集生成プログラム並びに用語集検索装置
JP2004318480A (ja) 電子機器装置、新語抽出方法、およびプログラム
JP2011095802A (ja) 機械翻訳装置及びプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060424

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090721

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090916

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091020