JP2005122665A - 電子機器装置、関連語データベースの更新方法、プログラム - Google Patents

電子機器装置、関連語データベースの更新方法、プログラム Download PDF

Info

Publication number
JP2005122665A
JP2005122665A JP2003360038A JP2003360038A JP2005122665A JP 2005122665 A JP2005122665 A JP 2005122665A JP 2003360038 A JP2003360038 A JP 2003360038A JP 2003360038 A JP2003360038 A JP 2003360038A JP 2005122665 A JP2005122665 A JP 2005122665A
Authority
JP
Japan
Prior art keywords
word
words
related word
text
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003360038A
Other languages
English (en)
Inventor
Hirotaka Kondo
広隆 近藤
Daisuke Yano
大介 矢野
Toshio Nakao
利雄 中尾
Naomasa Takahashi
巨成 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2003360038A priority Critical patent/JP2005122665A/ja
Publication of JP2005122665A publication Critical patent/JP2005122665A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 関連語データベースの更新処理の効率化を図ることのできる電子機器装置を提供する。
【解決手段】 入力されたテキストの形態素解析を行う形態素解析部2と、その解析結果から単語を抽出する単語抽出エンジン4と、抽出された単語の中から関連する単語を関連語として抽出して関連語DB6の作成および更新を行う関連語抽出エンジン5とを有する。関連語抽出エンジン5は、単語の出現頻度と単語間の共起度から関連語の抽出を行うものであり、抽出した個々の単語について、この単語と関連するすべての単語との関連の強さの値の和を当該個々の単語の重みとして求め、この単語とその重みを要素として含む関連語BD6を作成し、新たなテキストに対する関連語の処理結果で関連語DB6を更新するとき、関連語DB6の既存の単語の重みに新たに求められた単語の重みを加算する。
【選択図】 図8

Description

本発明は、意味的に関連する単語(関連語)のデータベースを作成する関連語データベース作成機能が組み込まれた電子機器装置、関連語データベースの更新方法およびプログラムに関する。
これまでの検索エンジンが検索情報を絞り込みを目的とするのに対し、検索結果を広げていくことを目的とした検索技術として「といえば検索」がある。この「といえば検索」は「○○といえば××」といった関係を文書単位で自動的に検索・認識し、類似した文書を分類するものである。
この「といえば検索」の具体的な処理の流れは以下の通りである。まず、文書から形態素解析により単語を切り出し、単語毎の出現頻度を算出して個々の単語の重要度を決定する。続いて、個々の単語の重要度に基づき文書の特徴ベクトルを計算する。そして、各文書どうしの特徴ベクトルを比較して文書間の類似度を計算し、類似度が高い文書を関連付けてデータベースに格納する(たとえば特許文献1を参照)。
特開2002−245067公報
しかしながら、一般に、「といえば検索」を採用した検索システムは、類似文書の検索に特化されたものであり、単語の単位で類似するもの(関連語)を抽出することには利用できなかった。
そこで、関連語を要素とするデータベースを作成して、このデータベースから入力キーワードの関連語を抽出できる機構が求められている。この種のデータベースは、たとえば、情報ソースとして入力されたテキスト(ドキュメント)を形態素解析し、その解析結果から辞書を参照して単語を抽出し、その中から互いに関連する単語を出現頻度と共起度に基づいて抽出することによって作成することが可能である。
しかしながら、既存のデータベースを、より広い視野で単語間の関連性を見出すことのできるデータベースへと更新するには、既存のデータベースの作成元のテキストと別のテキストとを1つのテキストにまとめ、この1つにまとめられたテキストから、改めて形態素解析、単語抽出、関連語抽出を行って、はじめからデータベースを作成し直す必要があった。したがって、効率が悪く、データベースの更新コストがかさむ、という問題があった。
本発明は、このような事情を鑑み、関連語データベースの更新処理の効率化を図ることのできる電子機器装置、関連語データベースの更新方法、プログラムを提供することを目的とするものである。
上記の課題を解決するために、本発明の電子機器装置は、テキストを入力するテキスト入力部と、前記テキスト入力部より入力されたテキストから単語を抽出する単語抽出部と、前記単語抽出部により抽出された単語の中から関連する単語を関連語として抽出し、抽出した単語間の関連の強さの値をそれぞれ求め、抽出された個々の単語について、この単語に関連するすべて単語との関連の強さの値の和を当該個々の単語の重みとして求めて、この単語の重みを要素として含む関連語データベースを作成し、新たなテキストに対する関連語の処理結果で前記関連語データベースを更新するとき、前記関連語データベースの既存の単語の重みに新たに求められた単語の重みを加算する関連語抽出部とを具備する。
この発明によれば、新たなテキストに対する関連語の処理結果で関連語データベースを更新するのに、関連語データベースの既存の単語の重みに新たに求められた単語の重みを加算するだけでよいから、比較的少ない計算量で関連語データベースの更新を行うことができ、非力な演算処理装置を用いた電子機器装置においても関連語データベースの更新を高速に行うことができる。
関連語抽出部が、求められた単語の重みに対して、各テキストの単語数などの違いに応じた正規化を行う機能を有することによって、それぞれのテキストにおける単語の重み算出基準を一致させることができ、関連語データベースの更新を正当に行うことができる。 関連語抽出部が、関連語データベース中の単語の重みをテキスト単位で管理する機能を有することによって、関連語データベースの内容をテキストの単位で操作することが可能になる。具体的には、一定期間が経過した過去のデータを、削除したり、テキスト単位の単語の重みを小さくして関連語データベースに及ぼす影響を少なくすることができる。
関連語抽出部が、単語の出現頻度と単語間の共起度から関連語の抽出を行い、共起度を単語と関連語との関連の強さの値として用いるものとすることによって、精度の良い関連語抽出が可能となり、実用的な関連語データベースを作成できるようになる。
また、本発明の電子機器装置は、キーワードを入力するキーワード入力部と、キーワード入力部より入力されたキーワードに関連する単語を、単語の重みを条件として関連語データベースより検索する関連語検索部とをさらに有するものとして構成することで、関連語データベースから、入力キーワードに対して、たとえば、関連の強い単語順に関連語を検索することができるようになる。
さらに、本発明の電子機器装置に、関連語検索部により検索された単語を入力単語の候補として処理する機能を付加することで、ユーザは自分の予測や知識の範囲を越えた関連語を候補から選択して入力することができる。逆に、分野の一致した複数のテキストから関連語データベースを作成すれば、その分野の言葉に限定された関連語データベースが得られ、たとえば、前述した入力支援機能に用いられる辞書として関連語データベースを利用すれば、ユーザの意図する単語が汎用辞書を用いたときに比べて速やかに入力することが可能になる。
また、本発明の電子機器装置は、関連語検索部によって関連語データベースより検索された複数の関連語をこれらの相互のつながりとともに図表化して関連語グラフとして出力する関連語グラフプロット部をさらに有するものとして構成してもかまわない。これにより、関連語どうしの関連をユーザが直感的に認識することができる。
そして、この関連語グラフで任意の単語をユーザに選択させ、選択された単語を入力単語の候補として処理するように構成することによって、ユーザは関連語どうしの関連を把握しながら目的の関連語を選択して入力することが可能になる。
また、本発明の電子機器装置は、関連語データベースに登録された複数の関連語をこれらの相互のつながりとともに図表化して関連語グラフとして出力するように構成するとともに、この関連語グラフで任意の単語を選択させ、選択された単語に応じた処理を行うように構成することによって、たとえば、EPGからの番組予約、ストレージデバイスに保存してある番組の検索、ウェブ検索、ブックマーク検索などを、言葉の関連を辿りつつ、連続して行うことができるようになる。
また、本発明の電子機器装置は、関連語データベースに登録された、テキスト間で共通する単語の数に基づいて、当該テキスト間の関連の強さを算出する機能を有する構成とすることも可能である。これにより、関連の強さを加味しつつ関連テキストを検索することが可能になる。
あるいは、本発明の電子機器装置は、関連語データベースに登録された、テキスト間で共通する、共起する単語対の数に基づいて、当該テキスト間の関連の強さを算出する機能を有する構成とすることも可能である。この構成によっても、関連の強さを加味しつつ関連テキストを検索することが可能になる。
さらに、関連する複数のテキストをこれらの関連の強さとともに図表化して関連テキストグラフとして出力することで、ユーザが一目で関連テキストを見つけ出すことができるようになる。
また、本発明の別の観点に基づく関連語データベースの更新方法は、テキストを入力するステップと、前記入力されたテキストから演算処理部にて単語を抽出するステップと、前記抽出された単語の中から前記演算処理部にて関連する単語を関連語として抽出するステップと、抽出された単語間の関連の強さの値を前記演算処理部にてそれぞれ求めるとともに、抽出された個々の単語について、この単語に関連するすべて単語との関連の強さの値の和を当該個々の単語の重みとして前記演算処理部にて求め、この単語の重みを要素として含む関連語データベースを作成して記憶部に記憶するステップと、新たに入力されたテキストに対する関連語の処理結果で前記記憶部に記憶されている前記関連語データベースを更新するとき、前記関連語データベースの既存の単語の重みに新たに求められた単語の重みを前記演算処理部にて加算するステップとを有するものである。
この発明の関連語データベースの更新方法によれば、新たなテキストに対する関連語の処理結果で関連語データベースを更新するのに、関連語データベースの既存の単語の重みに新たに求められた単語の重みを加算するだけでよいから、比較的少ない計算量で関連語データベースの更新を行うことができ、非力な演算処理装置を用いた電子機器装置においても関連語データベースの更新を高速に行うことができる。
さらに、本発明の別の観点に基づくプログラムは、コンピュータを、テキストを入力するテキスト入力部と、前記テキスト入力部より入力されたテキストから単語を抽出する単語抽出部と、前記単語抽出部により抽出された単語の中から関連する単語を関連語として抽出し、抽出した単語間の関連の強さの値をそれぞれ求め、抽出された個々の単語について、この単語に関連するすべての単語との関連の強さの値の和を当該個々の単語の重みとして求めて、この単語の重みを要素として含む関連語データベースを作成し、新たなテキストに対する関連語の処理結果で前記関連語データベースを更新するとき、前記関連語データベースの既存の単語の重みに新たに求められた単語の重みを加算する関連語抽出部として機能させるものである。
この発明のプログラムによれば、新たなテキストに対する関連語の処理結果で関連語データベースを更新するのに、関連語データベースの既存の単語の重みに新たに求められた単語の重みを加算するだけでよいから、比較的少ない計算量で関連語データベースの更新を行うことができ、非力な演算処理装置を用いた電子機器装置においても関連語データベースの更新を高速に行うことができる。
本発明によれば、関連語データベースの更新を効率良く、かつ精度良く行うことができるとともに、保守性に優れた実用的な関連語データベースを作成することができる。さらに本発明によれば、関連語検索部により検索された単語を入力単語の候補として処理することで、ユーザの予測や知識の範囲を越えた関連語の候補選択が可能になる。関連語グラフの表示によって関連語どうしの関連をユーザが直感的に認識しつつ目的の関連語を選択して入力できる。EPGからの番組予約、ストレージデバイスに保存してある番組の検索、ウェブ検索、ブックマーク検索などを言葉の関連を辿りつつ、連続して行うことができる。複数のテキスト間の関連をユーザが一目で知ることが可能になる。という優れた効果を奏し得る。
以下、本発明の実施の形態を図面に基づき説明する。
図1は、本発明の一実施形態にかかる関連語データベース(DB)作成装置の構成を示すブロック図である。同図に示すように、関連語DB作成システム1は、入力されたテキスト(ドキュメント)dの形態素解析を行う形態素解析部2と、単語が登録されている辞書3と、形態素解析部2の結果から辞書3を参照して単語を抽出する単語抽出エンジン4と、単語抽出エンジン4により抽出された単語から関連語を抽出して関連語データベース(DB)6の作成および更新を行う関連語抽出エンジン5とを備えて構成される。
図2は、関連語DB作成システム1の処理手順を示すフローチャートである。関連語DB作成システム1は、まず、関連語抽出のための情報ソースとして入力されたテキストdを読み込み(ステップ201)、形態素解析部2に渡す。
形態素解析部2は、読み込んだテキストdに対する形態素解析を行う(ステップ202)。ここで入力されるテキストdとは、テキストが抽出できるすべてのコンテンツ、具体的にはウェブページ、TV番組、ストリーミング動画、ストリーミング音楽などの情報(音、画像、メタデータなどテキストに変換可能な情報)である。形態素解析部2は、辞書3を参照しながら、入力テキストdを構成する文字列を単語の単位に分割し、分割した各単語に品詞や語形変化などの情報を与え、その結果をリストにして出力する。この形態素解析は、入力テキストdが、単語間に空白を入れる(分かち書きする)習慣のない日本語などの言語の場合に行われ、英語などの単語間に空白を入れる言語の場合は行われる必要がない。
次に、単語抽出エンジン4は、形態素解析の結果として出力された単語リストから、所定の選定基準に従って、関連語DB6に登録すべきものとして最低限の条件を満足する単語を選定する(ステップ203)。選定すべき単語とは、特定の品詞、たとえば固有名詞、未知語(辞書3の未登録語)、カタカナ語などである。
また、単語抽出エンジン4は、単語リストに挙げられている複数の単語を所定の単語連結規則に従って連結する(ステップ204)。連結する単語の組み合わせパターンとしては、たとえば、「性+名」、「姓+一般名詞+接尾語」、「姓+一般名詞+・・・+名」、「姓+一般名詞+・・・+一般名詞」、「固有名詞+接尾語」、「カタカナ語+・・・+カタカナ語」などがある。
上記の単語連結規則のうちの「姓+一般名詞+接尾語」の規則は、辞書3に存在しない名などが一般名詞として解析された場合に、「さん」などの接尾辞を基にその一般名詞が名であることを類推することによって、姓名の単語を正しく選定するためのものである。「カタカナ語+・・・+カタカナ語」の規則は、元々一つのカタカナ語であった単語が形態素解析によって複数のカタカナ語に分割されてしまった場合でも、それらのカタカナ語が辞書3にある単語ならば、それらのカタカナ語を連結したものを一つのカタカナ語として選定するためのものである。たとえば、「ソニー」と「ファイナンス」とは一つの単語である「ソニーファイナンス」として選定される。
また、形態素解析のアルゴリズムによっては特殊な記号などが未知語として得られる場合がある。このような場合、単語抽出エンジン4にて、形態素解析の解析結果である単語リストから、上記特殊な記号などの未知語を、明らかに言葉として意味を持たない語(不要語)として選定対象から外す。これにより、単語の選定精度をより高めることができる。
次に、関連語抽出エンジン5にて、単語の出現頻度と単語間の共起度から関連語の抽出が行われ(ステップ205)、関連語DB6に追加される(ステップ206)。
関連語の抽出には、KeyGraph[電子情報通信学会論文誌 D-I Vol.J82-D-I No.2 pp.391-400 1999年2月]の理論を応用することができる。KeyGraphとは、ある文書中に出現する単語の出現頻度と共起関係から関連グラフを作成し、この関連グラフにより文書の主張点を把握し、キーワードを抽出する手法である。
図3は、このKeyGraphを用いて関連語の抽出を行う処理の流れを示すフローチャート、図4および図5はこのKeyGraphによる関連語の抽出処理で作成される関連グラフの例である。ここで、二重丸は文書のキーワードを表し、その他の丸はキーワード候補として抽出された単語、線は単語の共起を示している。
まず、入力テキスト中で出現頻度が高い単語の集合Xを抽出する(ステップ301)。単語集合X中で共起度の高い単語対を線(図4、図5の実線)で結ぶ(ステップ302)。続いて、誤リンクの一時的な削除を行う(ステップ303)。この処理は、キーワード抽出精度を向上させるために、単語集合Xについての関連グラフにおいて、弱く連結された部分(そのリンクを取り除くと二つの連結部分グラフに分離される部分)を取り除く処理である。たとえば、図5に示すように、単語bと単語mとの間のリンクが誤リンクとして削除される。次に、出現頻度は高くないが単語集合Xとのつながりが強い(共起度が高い)単語の集合Yを抽出する(ステップ304)。さらに、単語集合Xと単語集合Y間で共起度が高い単語対を線(図4、図5の破線)で結ぶ(ステップ305)。続いて、単語の関連を見るために、削除した誤リンクを付け加える(ステップ306)。以上により最終的な関連グラフが完成し、この関連グラフから関連語を抽出して関連語DB6に蓄積(追加)する(ステップ307)。
なお、関連グラフからキーワードを抽出する場合には、ステップ305の後得られた関連グラフからKeyGraphに基づいて破線で結ばれた単語との共起度の和が大きい(たとえば上位所定数の)単語をキーワードとして抽出すれはよい。あるいは、すべての単語との共起度の和を計算するようにしてもよい。あるいは、KeyGraphに基づいたキーワードの計算対象(破線)の共起度を結果に反映させるように、そのキーワード計算対象の共起度に任意の係数kを乗じてすべての単語との共起度の和を計算するようにしてもよい。
図6は、上記の手順により作成された関連グラフの具体例である。ここで、a(フランス)、b(ボルドー)、c(ワイン)は相互に関連する単語(関連語)であり、d(日本)の単語はa、b、cのどの単語に対しても関連性のない単語である。c(a,b),c(b,c),c(c,a)は単語間のつながりの強さを示す共起度を示している。Wa,Wb,Wc,Wdは、それぞれの単語a,b,c,dの重みであり、たとえば、単語aの重みWaは、単語bとの共起度c(a,b)と単語cとの共起度c(c,a)との和としている。すなわち、単語の重みは、この単語とつながりをもつすべての単語との共起度の和である。なお、共起度の和を求める際に、KeyGraphに基づいたキーワードの計算対象(破線)の共起度を結果に反映させるように、そのキーワード計算対象の共起度に任意の係数kを乗じてもよい。
図7は、図6の関連グラフから作成された関連語DB6の例を示す図である。同図に示すように、この例では、関連語DB6は、単語、単語の重み、単語に対する関連語、および関連語との共起度で構成されている。ここで、他の単語とのつながりを持たない単語dの関連語の項目には、関連語がないことを示す"−"が登録され、共起度は"0"に設定される。
次に、複数のテキストから関連語DB6を作成する方法を説明する。
図8は図6に示した関連語抽出結果をテキストd1からの関連語抽出結果とし、この関連語抽出結果に新規にテキストd2の関連語抽出結果を加える方法を示す図である。ここで、Wa(d1)〜Wc(d1)はテキストd1の単語a〜単語cの重み、Wa(d2)〜We(d2)はテキストd2の単語a〜単語eの重みである。また、iは単語の重みに対して与えられる、テキストに応じて与えられる係数である。
テキストd1の関連語抽出結果にテキストd2の関連語抽出結果を加える場合には、各テキストd1,d2間で同一の単語について、テキストd1の個々の単語の重みに、テキストd2の個々の単語の重み、またはこのテキストd2の個々の単語の重みに係数iを乗じた値が加えられる。ここで、係数iは、テキストの長さなど、テキストによる違いに基づく正規化を行うためのもので、追加するテキストに応じて任意の値が設定される。上記の例は、テキストd1を基準にテキストd2を正規化しているが、一定の基準で全テキストに対して正規化を行うようにしてもよい。たとえば、単語数で正規化を図る場合、テキスト内に含まれる単語数1000個を標準とし、あるテキストに出現する単語数をNとして、係数iは、i=1000/Nで表現することもできる。なお、正規化する必要がなければi=1となる。
図9は、テキストd1の関連語抽出結果により作成された関連語DB6の内容に、テキストd2の関連語抽出結果を加えた結果の例を示す図である。この結果、関連語DB6は、単語、単語の重み、関連語、つながりの強さ、関連語が属するテキスト番号、テキスト内での単語と関連語との共起度(正規化したものを含む)で構成される。ここで、つながりの強さは、各々のテキスト内での単語と関連語との共起度の和である。
この関連語DB6では、この関連語DB6のデータを抽出元であるテキストの単位で操作することを可能としている。この操作は、具体的には、時事情報から関連語DB6を作成する際、一定期間経過した過去の情報を、関連語DB6から削除したり、テキスト単位の単語の重みを小さくして関連語DB6に及ぼす影響を少なくする場合などに行われる。
このようなテキスト単位での関連語DB6の操作を可能とするために、図9に示したように、関連語DB6には、個々の関連語がどのテキストに含まれていたものかを示すテキスト番号と、そのテキスト内での単語と関連語との共起度が登録されるようになっているとともに、テキストの属性を管理する手段が設けられている。
テキストの属性を管理する手段としては、具体的には、図10に示すように、テキストごとに、そのテキストの登録日時や、テキストの長さなどに応じて設定された重みなどの属性情報を管理するデータベース6を別途用意する方法と、関連語DB6に上記のデータ構造に加えて、テキストの登録日時や重みなどの属性を登録できるようにする方法などが挙げられる。また、関連語DB6や登録日時や重みなどの属性情報を管理するデータベースは、独自に構築されたものに限らず、SQLで実現してもかまわない。また、図9に示した関連語DB6において、単語の重み、つながりの強さは、他のデータから計算によって求めることが可能であるため、関連語DB6に必ずしも登録される必要はない。また、単語の出現頻度が入手可能な場合は、図30に示すように、関連語DB6に出現頻度の要素38を加えてもよい。
以上、KeyGraphを用いて関連語の抽出を行う場合を前提に本発明に係る実施形態を説明してきたが、本発明は、テキスト内の単語間の関連の強さを定量的に算出して関連語を抽出できる手法であれば、KeyGraph以外の手法を用いて実現してもよい。
図9に示した関連語DB6における単語の重みは、たとえば「話題キーワード」としてキーワードを抽出するための指標として用いることができる。また、関連語DB6におけるつながりの強さは、ある指定単語とつながりの強い単語(関連語)を順位を付けて抽出するための指標として用いることができる。具体的には、関連語をつながりの強さ順にソートするための条件として利用することができる。
図11は、つながりの強さに基づく関連語の検索例である。これは、単語aとのつながりが最も強い単語として単語bが検索され、単語bとのつながりがaの単語の次に強い単語として単語eが検索され、続いて単語cが検索されたことを示している。このようにして、単語aといえば単語b、単語bといえば単語e、単語eといえば単語cといった、単語のつながりを抽出することもできる。
本実施形態の関連語DB6は、たとえば、PC(Personal Computer)、PDA(Personal Digital(Data) Assistants)、携帯電話、テレビジョンセット、デジタルカメラ、デジタルビデオカメラなどの様々な電子機器装置に組み込んで利用することが可能である。
図12は、本実施形態の関連語DB6を組み込んだ電子機器装置100の構成例を示す図である。同図に示すように、この電子機器装置100は、処理演算部としてのCPU(Central Processing Unit)21、メインメモリ22、プログラム/データ記憶部2
3、インターネットなどのネットワーク24との接続を処理するネットワークインタフェース部25、ユーザに情報を視覚的に提供する表示デバイス26、VRAM(Video Random Access Memory)27を用いて表示デバイス26の画面への描画処理を行うグラフィックコントローラ28、ユーザに聴覚的に情報を提供するスピーカ29、ユーザの操作入力部30からの入力を処理するユーザインタフェースコントローラ31、そして以上の各部の間で信号を伝達するためのバス32を備える。
CPU21は、たとえばプログラム/データ記憶部23に記憶されたプログラムやデータ、ユーザによる操作入力部30からの入力などに基づき、メインメモリ22をワークエリアとして用いて各種の演算処理や制御を実行する。
メインメモリ22は、たとえば、RAM(Random Access Memory)などの、ランダムに読み取りと書き込みが可能な高速なメモリからなる。
プログラム/データ記憶部23は、読み取り専用あるいは読み書き可能な不揮発性の記憶装置であり、たとえばROM(Read Only Memory)、フラッシュROM、ディスクドライブなどである。このプログラム/データ記憶部23には、上述した関連語DB作成システム1や、この関連語DB作成システム1によって作成された関連語DB6から関連語を抽出するシステム(後述する)などをコンピュータにおいて機能させるためのプログラムなどが記憶されている。さらに、このプログラム/データ記憶部23には、関連語抽出システムによって抽出された関連語を用いて特定の処理を行うアプリケーション・プログラムなども記憶されている。
表示デバイス26は、具体的には、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、OEL(Organic Electroluminescence)などである。
ユーザの操作入力部30は、具体的には、簡易キーボード、IR(Infrared)リモートコントローラ、ジョグダイヤル、プッシュボタン、ソフトウェアキーボードなどである。
ネットワークインタフェース部25は、たとえばアナログモデム、LAN(Local Area Network)、ISDN(Integrated Services Digital Network)、ADSL(Asymmetric Digital Subscriber Line)、FTTH(Fiber-To-The-Home)、Bluetooth、FOMA(W−CDMA)などである。
図13は、関連語DB作成システム1によって作成された関連語DB6から関連語を抽出するシステム10の構成を示す図である。同図に示すように、この関連語抽出システム10は、関連語DB6と、入力されたキーワードに基づき関連語DB6を検索して、たとえば、関連語を出力したり、入力キーワードと関連語との組み合わせからなる関連語リストを出力するマッチングエンジン8とにより構成される。マッチングエンジン8の出力はアプリケーションに渡され、特定の処理に供されることになる。
次に、この関連語抽出システム10を利用したアプリケーションの例を説明する。
関連語抽出システム10の出力は表示デバイス26の画面を通して、ユーザに任意の関連語を選択させるためのインタフェースの実現に利用できる。
たとえば、関連語抽出システム10より得られた関連語をキーボード入力の際の入力補助に利用できる。具体的には、図14に示すように、表示デバイス26の画面に表示されたソフトウェアキーボード9による入力の際に、入力済みの文字に一致する単語(キーワード)9aを関連語リストから検索し、この検索したキーワード9aに対する関連語を変換候補9bとして表示する。関連語を変換候補9bとして表示する際、重みの大きい関連語を優先的に表示するようにする。図14の例では、「ブッシュ」まで入力されたところで、この「ブッシュ」の関連語である「プレッツェル」が変換候補9bとして表示された場合を示している。このようにユーザが意図するキーワードに対する関連語が候補として表示されることで、ユーザは自分の予測や知識の範囲を越えた関連語を取得することができ、ユーザに対して新鮮な知識や楽しみを提供できるようになる。
図15は、関連語抽出システム10を携帯電話へ適応した場合のアプリケーションの例である。これは、携帯電話の表示デバイス26の画面上で、たとえば「かに」という単語9aを入力すると、その関連語である「カニフォーク」が変換候補9bとして表示されるというものである。
また、関連語抽出システム10は、キーワードによるテレビ放送の自動録画にも応用できる。具体的には、ユーザが入力したキーワードとこの入力キーワードに関連した番組を関連語DB6より検索して、その中からユーザにより選択された番組を自動録画するといった仕組みを実現できる。たとえば、図9に示した関連語DB6を例にとると、単語aというキーワードが入力されたとき、これに関連する単語b,単語c,単語d,単語eのいずれかを含む番組が自動録画の候補番組として抽出される。さらには、単語aに関連したテキストを抽出し、リストにして出力するといった関連テキスト検索にも、上記の関連語抽出システム10は応用できる。
また、関連語DB6より抽出された複数の関連語をこれらの相互のつながりとともに図表化して関連語グラフとして出力するようにしてもよい。
図16は、この関連語グラフを図表化(プロット)して出力するシステム12のブロック図である。関連語グラフプロット部13は、関連語DB6のデータに基づき、表示デバイス26に表示させる関連語グラフの作成を行う。その際、関連語DB6に登録されたすべての関連語あるいは特定の分野の関連語からなる関連語グラフを作成する方法、ユーザから入力されたキーワードに対する関連語を関連語DB6より抽出して、入力キーワードと関連語とで構成される関連語グラフを作成する方法がある。
図17は、関連語グラフ14を上記の携帯電話などの入力補助機能に利用した例である。「かに」というキーワードが入力された後、たとえば関連語の表示を指示するボタンなどが押されると、図17に示すように、入力キーワードと、関連語と、つながりのある単語(キーワード、関連語)どうしを接続する線とで構成される関連語グラフ14を表示する「関連語選択」という画面15が現れる。この画面15に表示された関連語グラフ14において、入力キーワードは関連語グラフ14の中心に配置され、その周囲にキーワードが配置されている。また、関連語グラフ14の初期表示状態においては、入力キーワードにフォーカスが当てられて選択状態となっており、カーソルキーなどの操作によりフォーカスの位置を移動させることで目的の関連語を選択して入力することが可能とされている。ここでは携帯電話の例を示したが、この関連語グラフ14を用いた入力補助機能は、その他様々な種類の電子機器装置に利用できることは言うまでもない。ここでは携帯電話の例を示したが、この関連語グラフ14を用いた入力補助機能は、その他様々な種類の電子機器装置に利用できることは言うまでもない。
なお、関連語グラフのプロット法には、グラフ理論を適応してもよいし、碁盤の目上に配置するといったシステムに応じた表示形式でよい。
上記の関連語グラフ14は、EPG(Electronic Program Guide:電子番組ガイド)からのテレビ放送の自動録画における番組選択にも利用することができる。
たとえば、EPGより関連語DB6を作成しておき、関連語グラフプロット部13にて、関連語DB6に登録されたすべての関連語あるいは特定の分野の関連語からなる関連語グラフ14を作成して表示する。図18は、テレビセットなどの電子機器装置100の表示デバイス26の画面にEPGの関連語グラフ14を表示させた例である。このEPGの関連語グラフ14の中から、テレビセットに付属するリモートコントローラなどの入力操作部を使ってユーザが一つの関連語にフォーカスを移動させることなどによって選択すると、この選択された関連語に関係する番組の一覧がサブ画面16に表示される。なお、関連語に関係する番組を検索することができるように、あらかじめ関連語と番組との対応表を作成しておく必要がある。この後、サブ画面16に表示された番組の一覧から希望する番組がユーザにより選択されることで、その選択番組の録画予約が行われる。なお、番組一覧に表示する番組は、一覧表示でもよいし、ユーザの嗜好にマッチしたもののみを表示してもよい。図18は、EPGの関連語グラフ14の中から「野球」が選択されることで、サブ画面16に野球の番組に関する情報の一覧が表示され、この一覧から録画予約する番組の選択が行われることを示している。
また、この関連語DB6のすべての関連語あるいは特定の分野の関連語から作成された関連語グラフ14からのオブジェクトの選択は、EPGからの番組予約だけではなく、ハードディスクドライブなどのストレージデバイスに保存してある番組の検索にも可であるし、ウェブ検索にも適用できる。さらに、ウェブブラウザのブックマーク機能にも応用することができる。ブックマーク機能とは、一般には、ウェブ上のコンテンツにおいて、特定のページ位置を記録しておき、その中から任意のページ位置を選択すれば、そのページ位置のコンテンツを取得することのできる機能である。このブックマークを集めたファイルを入力テキストとして関連語DB6を作成し、このブックマークの関連語DB6の内容から関連語グラフを作成することによって、ユーザは言葉の関連を辿って目的のブックマークや、目的のブックマークに関連するブックマークを見つけ出して選択することができ、関連するコンテンツを続けて取得する場合の効率が向上する。もちろん、ウェブ上のコンテンツに限らず、検索可能なコンテンツ全般に関連語グラフを用いた検索を利用できる。
関連語グラフの表示には階層的な形態を採り入れてもよい。たとえば、ある単語を選択するとその単語に関連する関連語グラフが表示され、その中のある関連語を選択すると、その関連語に関連する関連語グラフが表示されるといったものが考えられる。
また、関連語グラフを、その関連語の抽出元であるテキストの単位で表示するようにしてもよい。図19は、テキスト単位の関連語グラフ14の表示例であり、ジョグダイヤルなどの操作に応じて、テキスト単位の関連語グラフ14a,14b,14c,14dが一つずつ連続的に切り替わって表示される様子を示している。
また、関連語グラフの表示においては、たとえば、図20に示すように、単語の文字とともにその単語のイメージ画像17を表示するようにしてもよい。これにより単語の意味のより直感的な認識が可能になる。イメージ画像17はウェブから取得したものを利用してもよい。描画速度を考慮して、ユーザにより単語が選択されてはじめてイメージ画像17が表示されるようにしてもよい。
次に、複数のテキストからの関連語抽出結果に基づいて求められた単語間のつながり強さから、テキスト間のつながりの強さを求める方法について説明する。
例として、図21に示すように、4つのテキストd1,d2,d3,d4を考え、これらのテキストd1,d2,d3,d4からの関連語抽出結果を加算して作成された関連語DB6の内容を図22に示す。また、この関連語DB6の作成に伴って作成された、テキストの属性を管理するデータベース7の内容を図23に示す。ここで、テキストの重みとして、テキストd1には"1"、テキストd2には"1(i)"、テキストd3には"0.8(j)"、テキストd4には"0.5(k)"がそれぞれ与えられており、関連語DB6に反映されている。
以上の図22の関連語DB6と図23のテキストの属性を管理するデータベース7を例として、テキスト間のつながりの強さを求める方法について説明する。
テキスト間のつながりの強さを求める方法には次の3つの方法がある。
図24は、その第1の方法を示す図である。この方法は、1つのテキストに存在する単語が他のテキストに存在する場合に、そのテキスト間で共通の単語の数に基づいて当該テキスト間のつながり強さを求める方法である。求められたテキスト間のつながり強さは、データベース7に、関連テキスト番号とともに登録される。なお、関連テキスト番号はテキストのタイトルであってもよい。このような関連語DB6は、SQLなどの既存のデータベースシステムに構築してもかまわない。たとえば、テキストd1とテキストd2との関係について説明すると、両テキストd1,d2には単語a,b,c,dの4つが共通に存在するので、つながり強さは"4"になる。このようにして求められたテキスト間の関連性は、図25に示すように、関連テキストグラフ18として表示される。
図26は、第2の方法を示す図である。この方法は、図24の第1の方法で求めた結果から、1つのテキスト内で孤立した単語(他の単語との関連を持たない単語)を排除して、テキスト間のつながり強さを求める方法である。たとえば、テキストd1とテキストd2との関係について説明すると、両テキストd1,d2には単語a,b,c,dの4つが共通に存在するが、テキストd1の単語dは孤立しているので、つながり強さは"3"になる。図27は、この第2の方法で求められたテキスト間のつながりの強さから作成された関連テキストグラフ27である。
図28は、第3の方法を示す図である。この方法は、テキスト間で共通のエッジ(線)の数に基づいて当該テキスト間のつながり強さを求める方法である。たとえば、テキストd1とテキストd2との関係について説明すると、両テキストd1,d2にはc(b,c)というエッジが共通に存在するので、つながり強さは"1"になる。図29は、この第3の方法で求められたテキスト間のつながりの強さから作成された関連テキストグラフ27である。
このように、複数のテキストの関連の強さを算出してデータベース7に登録しておくことで、関連するテキストの検索を、関連の強さを基に行うことが可能となる。また、複数のテキストの関連を、関連の強さとともに図表化して関連テキストグラフ18として表示できるようにしたことによって、ユーザが一目で関連テキストを見つけ出すことができる。
以上説明したテキスト間のつながりの強さの計算にテキスト間の同じ単語の数、同じエッジ(線)の数を用いたが、他の方法として、たとえばテキスト間の同じ単語の重みの和、同じエッジの共起度の和というように、単語の重みや、共起度を利用してもよい。この他にも、各テキストから関連語として抽出された単語の重みに基づいて各々のテキストベクトルを生成し、これらのテキストベクトルの内積を計算してテキスト間の類似度を求め、この類似度をテキスト間のつながりの強さとする方法もある。
また、以上のようにして求められたテキスト間のつながりの強さを応用して、複数テキストを自動分類する仕組みを容易に実現できる。
以上説明したように、この実施形態によれば、既存の関連語DB6に、新たなテキストからの関連語抽出結果を正しくマージした関連語DB6を、比較的少ない計算量で作成することができ、非力なCPUを用いた電子機器装置においても関連語DB6の更新を高速に行うことができる。この関連語DB6を単語の入力支援機能に利用することによって、自分の予測や知識の範囲を越えた関連語が候補として得られ、多彩な語彙の入力が可能になる。また、分野の一致した複数のテキストから関連語DB6を作成すれば、その分野の言葉に限定された関連語DB6が得られ、ユーザの意図する単語が汎用辞書を用いたときに比べて速やかに入力することが可能になる。
さらに、求められた単語の重みに対して、各テキストの単語数などの違いに応じた正規化を行うことによって、それぞれのテキストにおける単語の重み算出基準を一致させることができ、関連語DB6の更新を正当に行うことができる。
また、関連語DB6の単語の重みをテキスト単位で管理する機能を有することによって、一定期間が経過した過去のデータを、関連語DB6から削除したり、テキスト単位の単語の重みを小さくして関連語DB6に及ぼす影響を少なくするなど、関連語DB6の内容をテキストの単位で操作することが可能になる。
さらに、複数の関連語を相互のつながりとともに視覚化して関連語グラフ14として出力することによって、ユーザが関連語を一望することが可能になり、ユーザの意図する単語を速やかに見つけ出せるようになる。
なお、本発明は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
本発明の一実施形態にかかる関連語データベース(DB)作成装置の構成を示すブロック図である。 図1の関連語DB作成システムの処理手順を示すフローチャートである。 KeyGraphを用いて関連語の抽出を行う処理の流れを示すフローチャートである。 KeyGraphによるキーワード・関連語の抽出処理で作成される関連グラフを示す図である。 図4の関連グラフにおいて弱い連結部分の取り除きを示す図である。 KeyGraphによるキーワード・関連語の抽出処理で作成される関連グラフの具体例を示す図である。 図6の関連グラフから作成された関連語DBの例を示す図である。 2つのテキストの関連語抽出結果を加算する方法を示す図である。 2つのテキストの関連語抽出結果を加算することによって更新された関連語DBの例を示す図である。 テキストの属性を管理するデータベースの構成を示す図である。 つながりの強さに基づく関連語の検索例を示す図である。 図1の関連語DB作成システムおよびこれによって作成された関連語DBから関連語を抽出するシステムなどを組み込んだ電子機器装置の構成例を示す図である。 図1の関連語DB作成システムによって作成された関連語DBから関連語を抽出するシステムのブロック図である。 図13の関連語抽出システムの出力をソフトウェアキーボードの入力補助機能に適用した例を示す図である。 図13の関連語抽出システムを携帯電話へ適応した場合のアプリケーションの例を示す図である。 関連語グラフを図表化して出力するシステムのブロック図である。 関連語グラフを携帯電話などの入力補助機能に利用した例を示す図である。 テレビセットの表示デバイスにEPGの関連語グラフを表示させた例を示す図である。 テキスト単位の関連語グラフの表示例を示す図である。 画像イメージを用いた関連語グラフの表示例を示す図である。 4つのテキストの関連語抽出結果を加算した例を示す図である。 図21の関連語抽出結果の加算によって作成された関連語DBの例を示す図である。 図22の関連語DBに関してテキストの属性を管理するデータベースの例を示す図である。 テキスト間のつながりの強さを求める第1の方法を示す図である。 図24に対応する関連テキストグラフの表示例を示す図である。 テキスト間のつながりの強さを求める第2の方法を示す図である。 図26に対応する関連テキストグラフの表示例を示す図である。 テキスト間のつながりの強さを求める第3の方法を示す図である。 図28に対応する関連テキストグラフの表示例を示す図である。 出現頻度の要素が付加された関連語DBの構成を示す図である。
符号の説明
1 関連語DB作成システム
2 形態素解析部
3 辞書
4 単語抽出エンジン
5 関連語抽出エンジン
6 関連語DB
7 データベース
8 マッチングエンジン
9 ソフトウェアキーボード
10 関連語抽出システム
13 関連語グラフプロット部
14 関連語グラフ
18 関連テキストグラフ
21 CPU
22 メインメモリ
23 プログラム/データ記憶部
100 電子機器装置

Claims (16)

  1. テキストを入力するテキスト入力部と、
    前記テキスト入力部より入力されたテキストから単語を抽出する単語抽出部と、
    前記単語抽出部により抽出された単語の中から互いに関連する単語を関連語として抽出し、抽出した単語間の関連の強さの値をそれぞれ求め、抽出された個々の単語について、この単語と関連するすべての単語との関連の強さの値の和を当該個々の単語の重みとして求めて、この単語の重みを要素として含む関連語データベースを作成し、新たなテキストに対する関連語の処理結果で前記関連語データベースを更新するとき、前記関連語データベースの既存の単語の重みに、新たに求められた単語の重みを加算する関連語抽出部と
    を具備することを特徴とする電子機器装置。
  2. 前記関連語抽出部は、前記求められた単語の重みに対して、前記各テキストの違いに応じた正規化を行う機能を有することを特徴とする請求項1に記載の電子機器装置。
  3. 前記関連語抽出部は、前記関連語データベース中の単語の重みをテキスト単位で管理する機能を有することを特徴とする請求項1に記載の電子機器装置。
  4. 前記関連語抽出部は、単語の出現頻度と単語間の共起度から関連語の抽出を行い、共起度を単語と関連語との関連の強さの値として用いることを特徴とする請求項1に記載の電子機器装置。
  5. キーワードを入力するキーワード入力部と、
    前記キーワード入力部より入力されたキーワードに関連する単語を、前記単語の重みを条件として前記関連語データベースより検索する関連語検索部と
    をさらに具備することを特徴とする請求項1に記載の電子機器装置。
  6. 前記関連語検索部により検索された単語を入力単語の候補として処理する機能をさらに具備することを特徴とする請求項5に記載の電子機器装置。
  7. 前記関連語検索部によって前記関連語データベースより検索された複数の関連語をこれらの相互のつながりとともに図表化して関連語グラフとして出力する関連語グラフプロット部をさらに有することを特徴とする請求項5に記載の電子機器装置。
  8. 前記関連語グラフで任意の単語を選択させ、選択された単語を入力単語の候補として処理する機能をさらに具備することを特徴とする請求項7に記載の電子機器装置。
  9. 前記関連語データベースに登録された複数の関連語をこれらの相互のつながりとともに図表化して関連語グラフとして出力する関連語グラフプロット部をさらに有することを特徴とする請求項1に記載の電子機器装置。
  10. 前記関連語グラフで任意の単語を選択させ、選択された単語に応じた処理を行う機能をさらに具備することを特徴とする請求項9に記載の電子機器装置。
  11. 前記関連語データベースに登録された、テキスト間で共通する単語の数に基づいて、当該テキスト間の関連の強さを算出して、複数のテキストをこれらの関連の強さとともに図表化して関連テキストグラフとして出力する機能をさらに有することを特徴とする請求項1に記載の電子機器装置。
  12. 複数のテキストをこれらの関連の強さとともに図表化して関連テキストグラフとして出力する機能をさらに有することを特徴とする請求項11に記載の電子機器装置。
  13. 前記関連語データベースに登録された、テキスト間で共通する、共起する単語対の数に基づいて、当該テキスト間の関連の強さを算出して、複数のテキストをこれらの関連の強さとともに図表化して関連テキストグラフとして出力する機能をさらに有することを特徴とする請求項4に記載の電子機器装置。
  14. 複数のテキストをこれらの関連の強さとともに図表化して関連テキストグラフとして出力する機能をさらに有することを特徴とする請求項11に記載の電子機器装置。
  15. テキストを入力するステップと、
    前記入力されたテキストから演算処理部にて単語を抽出するステップと、
    前記抽出された単語の中から、前記演算処理部にて、互いに関連する単語を関連語として抽出するステップと、
    抽出された単語間の関連の強さの値を前記演算処理部にてそれぞれ求めるとともに、抽出された個々の単語について、この単語と関連するすべての単語との関連の強さの値の和を当該個々の単語の重みとして前記演算処理部にて求め、この単語の重みを要素として含む関連語データベースを作成して記憶部に記憶するステップと、
    新たに入力されたテキストに対する関連語の処理結果で前記記憶部に記憶されている前記関連語データベースを更新するとき、前記関連語データベースの既存の単語の重みに、新たに求められた単語の重みを前記演算処理部にて加算するステップと
    を有することを特徴とする関連語データベースの更新方法。
  16. コンピュータを、
    テキストを入力するテキスト入力部と、
    前記テキスト入力部より入力されたテキストから単語を抽出する単語抽出部と、
    前記単語抽出部により抽出された単語の中から関連する単語を関連語として抽出し、抽出した単語間の関連の強さの値をそれぞれ求め、抽出された個々の単語について、この単語に関連するすべて単語との関連の強さの値の和を当該個々の単語の重みとして求めて、この単語の重みを要素として含む関連語データベースを作成し、新たなテキストに対する関連語の処理結果で前記関連語データベースを更新するとき、前記関連語データベースの既存の単語の重みに新たに求められた単語の重みを加算する関連語抽出部と
    として機能させることを特徴とするプログラム。
JP2003360038A 2003-10-20 2003-10-20 電子機器装置、関連語データベースの更新方法、プログラム Pending JP2005122665A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003360038A JP2005122665A (ja) 2003-10-20 2003-10-20 電子機器装置、関連語データベースの更新方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003360038A JP2005122665A (ja) 2003-10-20 2003-10-20 電子機器装置、関連語データベースの更新方法、プログラム

Publications (1)

Publication Number Publication Date
JP2005122665A true JP2005122665A (ja) 2005-05-12

Family

ID=34616020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003360038A Pending JP2005122665A (ja) 2003-10-20 2003-10-20 電子機器装置、関連語データベースの更新方法、プログラム

Country Status (1)

Country Link
JP (1) JP2005122665A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102501A (ja) * 2005-10-04 2007-04-19 Nippon Telegr & Teleph Corp <Ntt> 単語間関連度算出方法及び装置
JP2008233963A (ja) * 2007-03-16 2008-10-02 Nippon Telegr & Teleph Corp <Ntt> 単語間相関度計算装置および方法、プログラム並びに記録媒体
JP2008250623A (ja) * 2007-03-30 2008-10-16 Nomura Research Institute Ltd 検索システム
JP2008250625A (ja) * 2007-03-30 2008-10-16 Nomura Research Institute Ltd 検索システム
JP2009140263A (ja) * 2007-12-06 2009-06-25 Nec Corp 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム
JP2010211792A (ja) * 2009-02-26 2010-09-24 Fujitsu Ltd 自動オントロジーのための辞書の生成及び共起コンテキストの決定
JP2021015562A (ja) * 2019-07-16 2021-02-12 Kpmgコンサルティング株式会社 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム
CN113094543A (zh) * 2021-04-27 2021-07-09 杭州网易云音乐科技有限公司 一种音乐鉴权方法、装置、设备及介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102501A (ja) * 2005-10-04 2007-04-19 Nippon Telegr & Teleph Corp <Ntt> 単語間関連度算出方法及び装置
JP2008233963A (ja) * 2007-03-16 2008-10-02 Nippon Telegr & Teleph Corp <Ntt> 単語間相関度計算装置および方法、プログラム並びに記録媒体
JP2008250623A (ja) * 2007-03-30 2008-10-16 Nomura Research Institute Ltd 検索システム
JP2008250625A (ja) * 2007-03-30 2008-10-16 Nomura Research Institute Ltd 検索システム
JP2009140263A (ja) * 2007-12-06 2009-06-25 Nec Corp 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム
JP2010211792A (ja) * 2009-02-26 2010-09-24 Fujitsu Ltd 自動オントロジーのための辞書の生成及び共起コンテキストの決定
JP2021015562A (ja) * 2019-07-16 2021-02-12 Kpmgコンサルティング株式会社 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム
CN113094543A (zh) * 2021-04-27 2021-07-09 杭州网易云音乐科技有限公司 一种音乐鉴权方法、装置、设备及介质
CN113094543B (zh) * 2021-04-27 2023-03-17 杭州网易云音乐科技有限公司 一种音乐鉴权方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US6442540B2 (en) Information retrieval apparatus and information retrieval method
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
US20110252062A1 (en) Electronic device for searching for entry word in dictionary data, control method thereof and program product
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JP2009289202A (ja) キーワード入力支援装置、キーワード入力支援方法及びプログラム
US20150112683A1 (en) Document search device and document search method
US20180246896A1 (en) Corpus Specific Generative Query Completion Assistant
JP2005135113A (ja) 電子機器装置、関連語抽出方法及びプログラム
JP2000148748A (ja) 仮名漢字変換及び画像検索表示システム
JPH10334106A (ja) 関連語提示装置及び関連語提示用プログラムを記録した媒体
JP2004318510A (ja) 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
JP2008243024A (ja) 情報取得装置、そのプログラム及び方法
JP2005122665A (ja) 電子機器装置、関連語データベースの更新方法、プログラム
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2012230544A (ja) 画像検索装置およびプログラム
JP5189413B2 (ja) 音声データ検索システム
WO2016151690A1 (ja) 文書検索装置、方法及びプログラム
JP2004362121A (ja) 情報検索装置、携帯情報端末装置、情報検索方法、情報検索プログラム及び記録媒体
JP4783563B2 (ja) インデックス生成プログラム、検索プログラム、インデックス生成方法、検索方法、インデックス生成装置および検索装置
JP2023055405A (ja) ユーザアシストシステム
JP5428622B2 (ja) 電子機器及びプログラム
JP4980604B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
JP3444223B2 (ja) データベース登録装置
JP4138048B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060424