JP5161658B2 - キーワード入力支援装置、キーワード入力支援方法及びプログラム - Google Patents

キーワード入力支援装置、キーワード入力支援方法及びプログラム Download PDF

Info

Publication number
JP5161658B2
JP5161658B2 JP2008143644A JP2008143644A JP5161658B2 JP 5161658 B2 JP5161658 B2 JP 5161658B2 JP 2008143644 A JP2008143644 A JP 2008143644A JP 2008143644 A JP2008143644 A JP 2008143644A JP 5161658 B2 JP5161658 B2 JP 5161658B2
Authority
JP
Japan
Prior art keywords
specific expression
keyword
text data
semantic attribute
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008143644A
Other languages
English (en)
Other versions
JP2009289202A (ja
Inventor
優 鈴木
聡 木下
秀雄 梅木
亘 仲野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008143644A priority Critical patent/JP5161658B2/ja
Priority to US12/472,497 priority patent/US8874590B2/en
Publication of JP2009289202A publication Critical patent/JP2009289202A/ja
Application granted granted Critical
Publication of JP5161658B2 publication Critical patent/JP5161658B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報検索などを行う場合にキーワードの入力を支援するキーワード入力支援装置、キーワード入力支援方法及びプログラムに関する。
従来、閲覧中の文書に関連する情報を検索する技術として、種々の手法が提案されている。例えば、特許文献1には、ウェブブラウザに表示した文書からユーザがポインティングデバイスによってキーワードを選択すると、選択されたキーワードの意味属性に基づいてキーワードに関連した検索方法の候補をメニューに表示し、選択された検索方法に基づいた情報検索を行う手法が開示されている。この手法によれば、画面上の所望のキーワードをマウス等のポインティングデバイスで選択するだけで閲覧中の文書に関連する情報を検索することが可能となる。
しかしながら、上記手法では検索の際に閲覧中の文書からユーザがポインティングデバイスによってキーワードを選択する必要があるため、携帯電話やテレビなど一般にポインティングデバイスを備えない機器には適用できないという問題がある。また、上記手法では、閲覧中の文書に関連する情報しか検索できず、過去に閲覧した文書に関連する情報をキーワードにして検索することができないという問題がある。
特開2006−65754公報
上述したように、上記手法では、検索の際に閲覧中の文書からユーザがポインティングデバイスによってキーワードを選択する必要があるため、携帯電話やテレビなどポインティングデバイスを備えない機器には適用できないという問題がある。
この発明は上記事情に着目してなされたもので、その目的とするところは、情報検索などを行う場合に、キーワードの入力を簡便に行えるようにするキーワード入力支援装置、キーワード入力支援方法及びプログラムを提供することにある。
上記目的を達成するためにこの発明に係るキーワード入力支援装置は、テキストデータを含む構成要素を複数有する文書を取得する文書取得部と、前記構成要素のうち前記テキストデータの文字数が多い構成要素を前記文書の中心的な内容が表された主要素として選択する主要素選択部と、前記主要素に含まれるテキストデータを形態素解析し、この形態素解析されたテキストデータの各語に意味属性を付与する解析部と、前記意味属性を付与された各語から所定の意味属性または品詞を持つ語を固有表現として抽出する抽出部と、前記固有表現を対応する意味属性と共に記憶する記憶部と、前記記憶部から前記固有表現を前記意味属性に基づいてキーワード候補として分類するキーワード候補分類部と、前記キーワード候補をユーザに提示する提示部とを具備する。
また、この発明に係るキーワード入力支援方法は、テキストデータを含む構成要素を複数有する文書を取得するステップと、前記構成要素のうち前記テキストデータの文字数が多い構成要素を前記文書の中心的な内容が表された主要素として選択するステップと、前記主要素に含まれるテキストデータを形態素解析し、この形態素解析されたテキストデータの各語に意味属性を付与するステップと、前記意味属性を付与された各語から所定の意味属性または品詞を持つ語を固有表現として抽出するステップと、前記固有表現を対応する意味属性と共に記憶するステップと、前記記憶された固有表現を前記意味属性に基づいてキーワード候補として分類するステップと、前記キーワード候補をユーザに提示するステップとを具備する。
また、この発明に係るプログラムは、テキストデータを含む構成要素を複数有する文書を取得する処理と、前記構成要素のうち前記テキストデータの文字数が多い構成要素を前記文書の中心的な内容が表された主要素として選択する処理と、前記主要素に含まれるテキストデータを形態素解析し、この形態素解析されたテキストデータの各語に意味属性を付与する処理と、前記意味属性を付与された各語から所定の意味属性または品詞を持つ語を固有表現として抽出する処理と、前記固有表現を対応する意味属性と共に記憶する処理と、前記記憶された固有表現を前記意味属性に基づいてキーワード候補として分類する処理と、前記キーワード候補をユーザに提示する処理とを実行させるものである。
したがって本発明によれば、情報検索などを行う場合に、キーワードの入力を簡便に行えるようにするキーワード入力支援装置、キーワード入力支援方法及びプログラムを提供することができる。
以下、図面を参照しながら本発明の実施の形態を詳細に説明する。
(第1の実施形態)
本発明の第1の実施形態は、携帯電話等の携帯端末上でウェブ文書を閲覧中に、閲覧中の文書や以前に閲覧した文書に関連する情報を検索するために用いられるキーワード入力支援装置について説明するものである。なお、本実施形態では具体的な説明のために、このキーワード入力支援装置が携帯端末上で動作する例を示すが、動作する機器の種類を限定する必要はなく、例えばテレビやデスクトップ型のパーソナルコンピュータ等で動作する実施形態であってもよい。
図1は、第1の実施形態のキーワード入力支援装置の構成を示す機能ブロック図である。
文書取得部101は、ユーザがウェブブラウザ等で閲覧している文書からテキスト情報を取得する。文書は、テキストデータを含む複数の構成要素を有する構造化文書であり、HTML(Hypertext Markup Language)形式やXML(the eXtensible Markup Language)形式の場合はテキスト情報としてタグ情報を含めて取得を行う。
主要素選択部102は、文書構造の複数の構成要素の中から文書の中心的な内容が記載されている要素(以下、主要素とする)を選択する。主要素が1つの文書から複数選択されてもよい。
形態素解析部103は、主要素に含まれるテキストデータに形態素解析処理を施す。形態素解析は、テキストデータを語単位に分割し、かつ各語の品詞の判定結果を出力するものである。
意味属性解析部104は、上記形態素解析結果に基づき、主要素に含まれるテキストデータの各語に意味属性を付与する。付与する意味属性としては、例えば人名や駅名、地名、製品名、製品型番などが考えられる。
固有表現抽出部105は、上記意味属性解析部104による解析結果に基づいて閲覧中の文書の主要素から上記意味属性に対応する固有表現を抽出する。
固有表現管理部106は、固有表現抽出部105により抽出された固有表現を対応する意味属性と共に後述する固有表現記憶部107に記憶する。また固有表現管理部106は、固有表現記憶部107に記憶された固有表現のうち所定の基準に基づいて不要と判定された固有表現を削除する。
固有表現記憶部107は、固有表現と意味属性の組を記憶する。また管理上の必要があれば、各固有表現が固有表現抽出部105によって最後に抽出された日時を合わせて記憶してもよい。また後述するキーワード候補提示選択部110によって当該固有表現がキーワードとしてユーザに選択された回数を合わせて記憶してもよい。固有表現記憶部107に記憶される各種の情報は固有表現管理部106によって固有表現記憶部107に登録、または、削除される。
キーワード候補分類部108は、キーワード出力指示受付部109がユーザからの指示を受けると、固有表現を意味属性に基づいてキーワード候補として分類する。また、必要に応じて、上記分類された固有表現を、固有表現抽出部105によって最後に抽出された日時など予め定められた基準に従ってさらに分類することができる。
キーワード候補提示選択部110は、キーワード候補分類部108により分類されたキーワード候補をユーザに提示し、提示されたキーワード候補から所望のキーワードの選択を促す。
キーワード出力部111は、キーワード候補の中からキーワード候補提示選択部110を通じてユーザにより選択されたキーワードを、検索エンジンなどの所定の出力先に出力する。
なお、固有表現記憶部107は、記憶媒体として例えばRAMやハードディスク等の書き込み及び読み出しが可能なメモリを使用する。その他の各モジュールは、例えば、CPU(Central Processing Unit)により実行される制御プログラムとしてROM等に格納される。
次に、このように構成されたキーワード入力支援装置の動作について説明する。
図2は、本実施形態においてユーザがウェブ文書を閲覧する画面の例である。図2は例えば携帯端末上で動作するウェブブラウザとして実現することができる。図2には、閲覧中のウェブ文書201と、検索ボタン208とが示されている。検索ボタン208は、ユーザが閲覧中の文書201に関連する情報を検索したい場合に押下するものである。つまり、検索ボタン208は図1に示したキーワード出力指示受付部109の一実現形態である。表示された文書の内容は文書取得部101によって読み出される。
図3に、図2に示した画面例から取得されるHTML文書の一例を示す。図3は図2中の領域201に表示されたウェブ文書のHTML形式に相当する。取得されたHTML文書は主要素選択部102により図4のフローに従って処理され、HTML文書の文書構造の中から主要素が選択される。
図4は、主要素選択部102の動作を示すフローチャートである。
先ず、主要素選択部102は、文書構造からDIVタグ(<DIV>〜</DIV>)を全て抽出してリストLを作成する(S1001)。リストLの要素数をNとする(S1002)。例えば、図3のHTML文書では、要素301〜306が抽出され、要素数N=6となる。
主要素選択部102は、変数i=0、文字数の最大値M=0、最大値の要素I=−1に初期化する(S1003)。変数iが要素数Nより小さい場合は(S1004:YES)、S1005へ移行し、主要素選択部102は、リストLのi番目の要素L[i]についてDIVタグ中に含まれる文字数をカウントし、文字数C[i]に記憶する(S1005)。ただし、L[i]に別のDIVタグL[j]が含まれている場合には、文字数C[i]にL[j]の文字数は含めない。
次に、主要素選択部102は、文字数C[i]と文字数の最大値Mとを比較し、文字数C[i]が文字数の最大値Mより大きいと判定されると(S1006:YES)S1007に移行し、文字数の最大値M=文字数C[i]とし、最大値の要素I=iとする(S1007)。一方、上記判定において、文字数C[i]が文字数の最大値M以下と判定されたときは(S1006:NO)、S1008にそのまま移行して、変数i=i+1として次の要素について上記処理を行う(S1004に戻る)。
主要素選択部102は、リストL内のすべての要素について上記処理を行うと(S1004:NO)、S1009に移行し、L[I]を主要素として出力する(S1009)。
図3のHTML文書の場合、上記図4のフローに従って302の部分が主要素として選択される。要素302は図2の207の領域に相当し、閲覧中の文書の本文に相当する。また、図3の要素301、303、304、305、306は、それぞれ図2の領域202、203、204、205、206に相当し、これらは主要素としては選択されない。つまり、主要素選択部102は、ウェブ文書から広告部分やスポンサーリンク部分を除去し、本文に相当する箇所を選択する。
なお、図4のフローでは文字数C[i]を最大にするL[i]だけを主要素としているが、最大値に近いC[i]を与える複数のL[i]を主要素として出力してもよい。また、主要素選択部102の処理としては、各DIVタグ中の文字数をカウントするだけでなく、例えば各DIVタグに含まれる句読点の数をカウントし、より多くの句読点を含むDIVタグを主要素とする方法も考えられる。
続いて、形態素解析部103は、主要素選択部102によって選択された主要素からテキストデータを抽出し、形態素解析処理を施す。図3の主要素302から抽出したテキストデータに対する形態素解析結果の例を図5に示す。形態素解析部103の動作は、公知の形態素解析処理であるため、ここでは詳説しない。形態素解析部103は、テキストデータを、語単位に分割し、かつ各語の品詞の判定結果を出力する。例えば、図5では、/は語の区切りを表し、また、<>で囲まれたのは各語の品詞の判定結果を示す。
さらに、意味属性解析部104は、この形態素解析の結果をもとに意味属性解析知識データベースを参照しながらテキストの各語に意味属性を付与する。意味属性解析知識データベースの一例を図6に示す。図6の意味属性解析知識データベースは正規表現を用いて表現されており、601は1つ以上の地名固有名詞に引き続いて数字または記号が1つ以上記述されていれば「<<住所>>」と解析され、602では1つ以上の地名固有名詞に引き続いて「駅<名詞>」が記述されていれば「<<駅名>>」と解析されることを示している。603〜606についても同様である。意味属性解析部104により上記図5の形態素解析結果を処理した結果の例を図7に示す。
固有表現抽出部105は、意味属性解析結果から所定の意味属性または品詞を持つ語を固有表現として抽出する。本実施形態では、例えば、地名、店名、住所、駅名、製品型番、製品名、人名を意味属性として持つ語を固有表現として抽出する。上記図7の意味属性解析結果から抽出された固有表現の一例を図8に示す。
上記抽出された固有表現は、固有表現管理部106によって、対応する意味属性と共に固有表現記憶部107に登録される。図9に固有表現記憶部107に記憶されている固有表現の一例を示す。図9の「最終日時」は、固有表現記憶部107に登録、更新された日時、または、キーワード候補提示選択部110を通じてユーザに選択された日時のうち、最近の日時を示している。また、図9の「選択回数」はキーワード候補提示選択部110を通じて当該固有表現がキーワードとしてユーザに選択された回数を示す。
また、固有表現管理部106は、図10のフローに従って固有表現記憶部107に記憶された固有表現を管理する。
図10は、固有表現管理部106の動作を示すフローチャートである。
先ず、固有表現管理部106は、固有表現抽出結果の数Nをカウントする(S2001)。また、変数i=0に初期化し、固有表現記憶部107に登録済みの固有表現の数を登録数Kに代入しておく(S2002)。iがNより小さい場合(S2003:YES)はS2004に移行して、固有表現管理部106は、i番目の抽出結果k[i]が固有表現記憶部107に登録済みであるか否かを判定する(S2004)。
この判定において、k[i]が固有表現記憶部107に登録済みと判定された場合は(S2004:YES)、固有表現管理部106は、固有表現記憶部107においてk[i]の最終日時を現在日時に更新する(S2005)。一方、上記判定においてk[i]が固有表現記憶部107に登録されていないと判定された場合は(S2004:NO)、固有表現管理部106は、k[i]を固有表現記憶部107に登録し(S2006)、登録数K=K+1とする(S2007)。なお、S2006において、固有表現の新規登録時には、最終日時には現在日時、選択回数は0に設定される。
S2005又はS2007の処理の後、変数i=i+1として次の抽出結果について上記処理を行う(S2003に戻る)。
固有表現管理部106は、N個すべての抽出結果について上記処理を行うと(S2003:NO)、S2009に移行し、登録数Kが予め決められた固有表現の最大数Mを超えているか否かを判定する(S2009)。この判定において登録数Kが最大数M以下であると判定された場合には(S2009:NO)、処理を終了する。一方、登録数Kが最大数Mを超えていると判定された場合には(S2009:YES)、固有表現記憶部107に登録された固有表現を選択回数の降順にソートする(S2010)。そして、選択回数の順位がM位より低い固有表現を最終日時の古いものから順に削除する(S2011)。
さて、ここでユーザが図2の検索ボタン208を押下することにより、キーワード出力指示受付部109がユーザによるキーワード出力指示を受理したものとする。
キーワード出力指示受付部109がキーワード出力指示を受け付けると、キーワード候補分類部108は、固有表現記憶部107から固有表現を意味属性に基づいてキーワード候補として分類する。キーワード候補提示選択部110は、キーワード候補分類部108により分類されたキーワード候補をユーザに提示して、提示されたキーワード候補から所望のキーワードの選択を促す。
図11にキーワード候補提示選択部110によるキーワード候補の提示の画面例を示す。例えば、図2で検索ボタン208が押下されると図2の閲覧中の文書201の領域が上方に狭くなり、キーワード提示領域1101が出現して図11のような画面に遷移する。図11の例では、キーワード候補分類部108は、固有表現記憶部107に記憶された固有表現を意味属性毎に分類してキーワード候補とし、意味属性をタブ1102によって提示する。ただし、図11では意味属性のうち地名と住所を「地名」タブにまとめ、製品名と製品型番を「製品」タブにまとめて提示している。
なお、キーワード候補分類部108による分類は、必ずしも意味属性毎である必要はなく、例えば最終日時の日付単位や選択回数で分類することも考えられるが、いずれにしても固有表現記憶部107に記憶された固有表現を分類してキーワード候補として提示することでユーザによる選択を容易にしている。
また、図11の例では意味属性が駅名である固有表現がキーワード候補として提示されている。それぞれの意味属性の分類内では固有表現は最終日時の新しい順にソートされており、最近閲覧した文書から抽出された固有表現が上位に提示されるようになっている。その他にも、意味属性の分類内の固有表現を選択回数の多いものから順にソートして提示することもできる。
図11では最初、選択カーソルは意味属性を表すタブにあり、ユーザは携帯端末に備えられたカーソル操作キーでカーソルを左右に移動することで意味属性を選択できる。そして、所望の意味属性を選択した後、カーソル操作キーでカーソルを上下に移動することで、意味属性毎に分類されたキーワード候補から所望のキーワードを選択し、携帯端末に備えられた決定キーを押下することでキーワードの選択を決定する。
また、本実施形態では、キーワード候補提示選択部110への入力によってユーザがキーワードの選択を決定した後、さらに検索方法選択領域1103で検索方法を選択するようになっている。提示される検索方法は意味属性毎に異なる。検索方法の例を図12に示す。つまり、領域1104でユーザがキーワードの選択を決定すると、選択カーソルが領域1103に移動し、カーソル操作キーでカーソルを上下に移動することで選択したキーワードに関して検索したい検索方法を選択することができる。
検索方法が選択されると、キーワード出力部111は、外部の検索エンジン等(図示せず)に選択されたキーワードと、検索方法に応じた追加キーワードを出力する。図12に出力される追加キーワードの例を示している。例えば、図11のようにキーワードとして「代官山駅」が選択され、検索方法として「構内案内図を探す」が選択された場合には、図12に従って「代官山駅 案内図 Floor Map」がキーワード出力部111によって出力される。
また、ユーザによってキーワードが選択されると、キーワード候補提示選択部110は、選択されたキーワードを固有表現管理部106に通知する。選択されたキーワードの通知を受けた固有表現管理部106は、固有表現記憶部107に記憶された当該キーワードに対応する固有表現の最終日時を現在日時に更新し、選択回数に1を加える。
(第1の実施形態の第1の変形例)
本発明の第1の実施形態の第1の変形例の構成は図1に示した第1の実施形態の構成と同一である。ただし、固有表現管理部106は、固有表現抽出部105が新たな固有表現群を抽出する度に、固有表現記憶部107に記憶された固有表現を初期化する。つまり、ユーザが新たな文書を閲覧する度に、閲覧中の文書から抽出された固有表現だけがキーワード候補提示部110によってユーザに提示されるように動作する。
(第1の実施形態の第2の変形例)
本発明の第1の実施形態の第2の変形例の構成は図1に示した第1の実施形態の構成と同様で、文書取得部101から固有表現記憶部107までは、上記第1の実施形態の場合と同じように動作をする。
キーワード出力指示受付部109は、携帯端末上のハードウェアボタン(検索ボタン)として実現される。例えば、図13(a)のように、HTML文書のテキスト入力フォームにテキスト入力カーソルがある状態でユーザが検索ボタンを押下すると、第1の実施形態と同様にキーワード候補分類部108が固有表現記憶部107からキーワード候補となる固有表現を意味属性に基づいて分類し、図13(b)のようにキーワード候補を提示してユーザによるキーワードの選択を促す。
ここで、例えば、図13(b)に示すように、ユーザが意味属性として「駅名」を指定し、続いてキーワード候補から「武蔵小杉駅」をキーワードとして選択したものとする。この選択操作により、キーワード出力部111は選択されたキーワード「武蔵小杉駅」をテキスト入力カーソルの位置に標準出力として出力する。これにより、図13(c)のようにテキスト入力フォームに「武蔵小杉駅」と入力される。
以上述べたように、上記第1の実施形態によれば、閲覧中の文書、または、以前に閲覧した文書から抽出された固有表現が意味属性に分類された上でキーワード候補として提示され、ユーザがこれらのキーワード候補をカーソル操作キーなどのキー入力操作により選択することで任意のテキスト入力フォームにキーワードを入力することが可能となる。これにより、ユーザはポインティングデバイスでキーワードを選択することなく閲覧中の文書に関連する情報を検索することが可能となり、携帯電話やテレビなどポインティングデバイスを備えない機器を使用している時でも様々な情報にアクセスすることができるようになる。
(第2の実施形態)
本発明の第2の実施形態は、第1の実施形態の第2の変形例と同様に動作するが、図14に構成を示したように、第1の実施形態に加えて入力要求判別部112を備えている。なお、図14において、図1と同一部分には同一符号を付し、詳しい説明は省略する。
入力要求判別部112は、ユーザがキーワード出力指示受付部109に対してキーワードの出力を指示すると、テキスト入力カーソルの前後の文章を解析してキーワード候補分類部108がキーワード候補とすべき固有表現の分類を判別する。
入力要求判別部112は、例えば図15に示すような入力要求判別知識データベースを参照してキーワード候補とすべき固有表現の分類を判別する。例えば図16(a)の場合、入力要求判別部112は、テキスト入力カーソル1601の前後の文章に「駅」という手がかり語が含まれることから、図15の1501を参照して上記分類を「駅名」と判別する。
入力要求判別部112の判別結果に基づき、キーワード候補分類部108は固有表現記憶部107から意味属性が「駅名」である固有表現をキーワード候補として分類し、キーワード候補提示選択部110は図16(b)のようにキーワード候補として提示する。
ユーザが提示されたキーワード候補から、例えば図16(b)のように「武蔵小杉駅」というキーワードを選択すると、キーワード出力部111はテキスト入力カーソルの位置に選択されたキーワードを出力する。図16の例では、図16(c)のようにテキスト入力フォームに「武蔵小杉駅」と入力されることになる。
以上述べたように、上記第2の実施形態によれば、上記第1の実施形態と同様の効果を奏するとともに、さらに、閲覧中の文書のカーソル位置の前後の文章に見合った分類でキーワード候補が提示されるようになる。このようにすることで、ユーザはさらに簡便にキーワードの入力を行えるため、簡単な操作で即座に情報検索等を行うことが可能となる。
なお、この発明は、上記各実施形態に限定されるものではない。例えば、上記各実施形態では、キーワード入力支援装置の各機能を1つの装置に備えるように構成したが、各機能を複数の装置に分離して備えることもできる。例えば、キーワード出力指示受付部109、キーワード候補提示選択部110、及びキーワード出力部111などの一部の機能をクライアント装置に実装し、その他の各モジュールをこのクライアント装置と通信回線を介して接続されるサーバ装置に実装する構成としてもよい。このようにすることで、携帯端末等のクライアント端末上で閲覧中の文書に対してサーバ装置からキーワード候補が提供されるキーワード入力支援システムを実現できる。その他、装置の構成および各モジュールの処理手順とその内容についても本発明の要旨に逸脱しない範囲で種々に変形できるものとする。
要するに、この発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
第1の実施形態のキーワード入力支援装置の構成を示す機能ブロック図。 閲覧中の文書の画面例を示す図。 図2に示した画面例から取得されるHTML文書の一例を示す図。 主要素選択部の動作を示すフローチャート。 図3に示す文書の形態素解析結果の一例を示す図。 意味属性解析知識データベースの一例を示す図。 意味属性解析結果の一例を示す図。 固有表現抽出部により抽出された固有表現の一例を示す図。 固有表現記憶部に記憶された固有表現の一例を示す図。 固有表現管理部の動作を示すフローチャート。 キーワード候補提示選択部により提示されたキーワード候補の一例を示す図。 検索方法の一例を示す図。 キーワード出力の一例を示す図。 第2の実施形態のキーワード入力支援装置の構成を示す機能ブロック図。 入力要求判別知識データベースの一例を示す図。 キーワード出力の一例を示す図。
符号の説明
101…文書取得部、102…主要素選択部、103…形態素解析部、104…意味属性解析部、105…固有表現抽出部、106…固有表現管理部、107…固有表現記憶部、108…キーワード候補分類部、109…キーワード出力指示受付部、110…キーワード候補提示選択部、111…キーワード出力部、112…入力要求判別部。

Claims (12)

  1. テキストデータを含む構成要素を複数有する文書を取得する文書取得部と、
    前記構成要素のうち前記テキストデータの文字数が多い構成要素を前記文書の中心的な内容が表された主要素として選択する主要素選択部と、
    前記主要素に含まれるテキストデータを形態素解析し、この形態素解析されたテキストデータの各語に意味属性を付与する解析部と、
    前記意味属性を付与された各語から所定の意味属性または品詞を持つ語を固有表現として抽出する抽出部と、
    前記固有表現を対応する意味属性と共に記憶する記憶部と、
    前記記憶部から前記固有表現を前記意味属性に基づいてキーワード候補として分類するキーワード候補分類部と、
    前記キーワード候補をユーザに提示する提示部と
    を具備し、
    前記記憶部は、前記固有表現が前記抽出部により抽出された日時、及び前記固有表現が前記ユーザによってキーワードとして選択された日時の少なくとも一方を表す最終日時情報を前記固有表現と共にさらに記憶し、
    前記キーワード候補分類部は、前記最終日時情報に従って前記固有表現を前記キーワード候補として分類することをさらに特徴とするキーワード入力支援装置。
  2. テキストデータを含む構成要素を複数有する文書を取得する文書取得部と、
    前記構成要素のうち前記テキストデータの文字数が多い構成要素を前記文書の中心的な内容が表された主要素として選択する主要素選択部と、
    前記主要素に含まれるテキストデータを形態素解析し、この形態素解析されたテキストデータの各語に意味属性を付与する解析部と、
    前記意味属性を付与された各語から所定の意味属性または品詞を持つ語を固有表現として抽出する抽出部と、
    前記固有表現を対応する意味属性と共に記憶する記憶部と、
    前記記憶部から前記固有表現を前記意味属性に基づいてキーワード候補として分類するキーワード候補分類部と、
    前記キーワード候補をユーザに提示する提示部と
    を具備し、
    前記記憶部は、前記固有表現が前記ユーザによってキーワードとして選択された回数を表す選択情報さらに記憶し、
    前記キーワード候補分類部は、前記選択情報に従って前記固有表現を前記キーワード候補として分類することをさらに特徴とするキーワード入力支援装置。
  3. テキストデータを含む構成要素を複数有する文書を取得する文書取得部と、
    前記構成要素のうち前記テキストデータの文字数が多い構成要素を前記文書の中心的な内容が表された主要素として選択する主要素選択部と、
    前記主要素に含まれるテキストデータを形態素解析し、この形態素解析されたテキストデータの各語に意味属性を付与する解析部と、
    前記意味属性を付与された各語から所定の意味属性または品詞を持つ語を固有表現として抽出する抽出部と、
    前記固有表現を対応する意味属性と共に記憶する記憶部と、
    前記記憶部から前記固有表現を前記意味属性に基づいてキーワード候補として分類するキーワード候補分類部と、
    前記キーワード候補をユーザに提示する提示部と
    を具備し、
    前記記憶部は、前記固有表現が前記抽出部により抽出された日時、及び前記固有表現が前記ユーザによってキーワードとして選択された日時の少なくとも一方を表す最終日時情報を前記固有表現と共にさらに記憶し、
    前記最終日時情報に従って前記記憶部に記憶された固有表現を管理する管理部をさらに具備することを特徴とするキーワード入力支援装置。
  4. テキストデータを含む構成要素を複数有する文書を取得する文書取得部と、
    前記構成要素のうち前記テキストデータの文字数が多い構成要素を前記文書の中心的な内容が表された主要素として選択する主要素選択部と、
    前記主要素に含まれるテキストデータを形態素解析し、この形態素解析されたテキストデータの各語に意味属性を付与する解析部と、
    前記意味属性を付与された各語から所定の意味属性または品詞を持つ語を固有表現として抽出する抽出部と、
    前記固有表現を対応する意味属性と共に記憶する記憶部と、
    前記記憶部から前記固有表現を前記意味属性に基づいてキーワード候補として分類するキーワード候補分類部と、
    前記キーワード候補をユーザに提示する提示部と
    を具備し、
    前記記憶部は、前記固有表現が前記ユーザによってキーワードとして選択された回数を表す選択情報さらに記憶し、
    前記選択情報に従って前記記憶部に記憶された固有表現を管理する管理部をさらに具備することを特徴とするキーワード入力支援装置。
  5. 情報処理装置により実行されるキーワード入力支援方法であって、
    テキストデータを含む構成要素を複数有する文書を取得するステップと、
    前記構成要素のうち前記テキストデータの文字数が多い構成要素を前記文書の中心的な内容が表された主要素として選択するステップと、
    前記主要素に含まれるテキストデータを形態素解析し、この形態素解析されたテキストデータの各語に意味属性を付与するステップと、
    前記意味属性を付与された各語から所定の意味属性または品詞を持つ語を固有表現として抽出するステップと、
    前記固有表現を対応する意味属性と共に記憶するステップと、
    前記記憶された固有表現を前記意味属性に基づいてキーワード候補として分類するステップと、
    前記キーワード候補をユーザに提示するステップと
    有し、
    前記記憶するステップは、前記固有表現が前記抽出された日時、及び前記固有表現が前記ユーザによってキーワードとして選択された日時の少なくとも一方を表す最終日時情報を前記固有表現と共にさらに記憶し、
    前記分類するステップは、前記最終日時情報に従って前記固有表現を前記キーワード候補として分類することを特徴とするキーワード入力支援方法。
  6. 情報処理装置により実行されるキーワード入力支援方法であって、
    テキストデータを含む構成要素を複数有する文書を取得するステップと、
    前記構成要素のうち前記テキストデータの文字数が多い構成要素を前記文書の中心的な内容が表された主要素として選択するステップと、
    前記主要素に含まれるテキストデータを形態素解析し、この形態素解析されたテキストデータの各語に意味属性を付与するステップと、
    前記意味属性を付与された各語から所定の意味属性または品詞を持つ語を固有表現として抽出するステップと、
    前記固有表現を対応する意味属性と共に記憶するステップと、
    前記記憶された固有表現を前記意味属性に基づいてキーワード候補として分類するステップと、
    前記キーワード候補をユーザに提示するステップと
    有し、
    前記記憶するステップは、前記固有表現が前記ユーザによってキーワードとして選択された回数を表す選択情報さらに記憶し、
    前記分類するステップは、前記選択情報に従って前記固有表現を前記キーワード候補として分類することを特徴とするキーワード入力支援方法。
  7. 情報処理装置により実行されるキーワード入力支援方法であって、
    テキストデータを含む構成要素を複数有する文書を取得するステップと、
    前記構成要素のうち前記テキストデータの文字数が多い構成要素を前記文書の中心的な内容が表された主要素として選択するステップと、
    前記主要素に含まれるテキストデータを形態素解析し、この形態素解析されたテキストデータの各語に意味属性を付与するステップと、
    前記意味属性を付与された各語から所定の意味属性または品詞を持つ語を固有表現として抽出するステップと、
    前記固有表現を対応する意味属性と共に記憶するステップと、
    前記記憶された固有表現を前記意味属性に基づいてキーワード候補として分類するステップと、
    前記キーワード候補をユーザに提示するステップと
    有し、
    前記記憶するステップは、前記固有表現が前記抽出された日時、及び前記固有表現が前記ユーザによってキーワードとして選択された日時の少なくとも一方を表す最終日時情報を前記固有表現と共にさらに記憶し、
    前記最終日時情報に従って前記記憶された固有表現を管理するステップをさらに有することを特徴とするキーワード入力支援方法。
  8. 情報処理装置により実行されるキーワード入力支援方法であって、
    テキストデータを含む構成要素を複数有する文書を取得するステップと、
    前記構成要素のうち前記テキストデータの文字数が多い構成要素を前記文書の中心的な内容が表された主要素として選択するステップと、
    前記主要素に含まれるテキストデータを形態素解析し、この形態素解析されたテキストデータの各語に意味属性を付与するステップと、
    前記意味属性を付与された各語から所定の意味属性または品詞を持つ語を固有表現として抽出するステップと、
    前記固有表現を対応する意味属性と共に記憶するステップと、
    前記記憶された固有表現を前記意味属性に基づいてキーワード候補として分類するステップと、
    前記キーワード候補をユーザに提示するステップと
    有し、
    前記記憶するステップは、前記固有表現が前記ユーザによってキーワードとして選択された回数を表す選択情報さらに記憶し、
    前記選択情報に従って前記記憶された固有表現を管理するステップをさらに有することを特徴とするキーワード入力支援方法。
  9. コンピュータに、
    テキストデータを含む構成要素を複数有する文書を取得する処理と、
    前記構成要素のうち前記テキストデータの文字数が多い構成要素を前記文書の中心的な内容が表された主要素として選択する処理と、
    前記主要素に含まれるテキストデータを形態素解析し、この形態素解析されたテキストデータの各語に意味属性を付与する処理と、
    前記意味属性を付与された各語から所定の意味属性または品詞を持つ語を固有表現として抽出する処理と、
    前記固有表現を対応する意味属性と共に記憶する処理と、
    前記記憶された固有表現を前記意味属性に基づいてキーワード候補として分類する処理と、
    前記キーワード候補をユーザに提示する処理と
    を実行させ
    前記記憶する処理は、前記固有表現が前記抽出された日時、及び前記固有表現が前記ユーザによってキーワードとして選択された日時の少なくとも一方を表す最終日時情報を前記固有表現と共にさらに記憶し、
    前記分類する処理は、前記最終日時情報に従って前記固有表現を前記キーワード候補として分類することを特徴とするプログラム。
  10. コンピュータに、
    テキストデータを含む構成要素を複数有する文書を取得する処理と、
    前記構成要素のうち前記テキストデータの文字数が多い構成要素を前記文書の中心的な内容が表された主要素として選択する処理と、
    前記主要素に含まれるテキストデータを形態素解析し、この形態素解析されたテキストデータの各語に意味属性を付与する処理と、
    前記意味属性を付与された各語から所定の意味属性または品詞を持つ語を固有表現として抽出する処理と、
    前記固有表現を対応する意味属性と共に記憶する処理と、
    前記記憶された固有表現を前記意味属性に基づいてキーワード候補として分類する処理と、
    前記キーワード候補をユーザに提示する処理と
    を実行させ
    前記記憶する処理は、前記固有表現が前記ユーザによってキーワードとして選択された回数を表す選択情報さらに記憶し、
    前記分類する処理は、前記選択情報に従って前記固有表現を前記キーワード候補として分類することを特徴とするプログラム。
  11. コンピュータに、
    テキストデータを含む構成要素を複数有する文書を取得する処理と、
    前記構成要素のうち前記テキストデータの文字数が多い構成要素を前記文書の中心的な内容が表された主要素として選択する処理と、
    前記主要素に含まれるテキストデータを形態素解析し、この形態素解析されたテキストデータの各語に意味属性を付与する処理と、
    前記意味属性を付与された各語から所定の意味属性または品詞を持つ語を固有表現として抽出する処理と、
    前記固有表現を対応する意味属性と共に記憶する処理と、
    前記記憶された固有表現を前記意味属性に基づいてキーワード候補として分類する処理と、
    前記キーワード候補をユーザに提示する処理と
    を実行させ
    前記記憶する処理は、前記固有表現が前記抽出された日時、及び前記固有表現が前記ユーザによってキーワードとして選択された日時の少なくとも一方を表す最終日時情報を前記固有表現と共にさらに記憶し、
    前記最終日時情報に従って前記記憶された固有表現を管理する処理をさらに実行させることを特徴とするプログラム。
  12. コンピュータに、
    テキストデータを含む構成要素を複数有する文書を取得する処理と、
    前記構成要素のうち前記テキストデータの文字数が多い構成要素を前記文書の中心的な内容が表された主要素として選択する処理と、
    前記主要素に含まれるテキストデータを形態素解析し、この形態素解析されたテキストデータの各語に意味属性を付与する処理と、
    前記意味属性を付与された各語から所定の意味属性または品詞を持つ語を固有表現として抽出する処理と、
    前記固有表現を対応する意味属性と共に記憶する処理と、
    前記記憶された固有表現を前記意味属性に基づいてキーワード候補として分類する処理と、
    前記キーワード候補をユーザに提示する処理と
    を実行させ
    前記記憶する処理は、前記固有表現が前記ユーザによってキーワードとして選択された回数を表す選択情報さらに記憶し、
    前記選択情報に従って前記記憶された固有表現を管理する処理をさらに実行させることを特徴とするプログラム。
JP2008143644A 2008-05-30 2008-05-30 キーワード入力支援装置、キーワード入力支援方法及びプログラム Active JP5161658B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008143644A JP5161658B2 (ja) 2008-05-30 2008-05-30 キーワード入力支援装置、キーワード入力支援方法及びプログラム
US12/472,497 US8874590B2 (en) 2008-05-30 2009-05-27 Apparatus and method for supporting keyword input

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008143644A JP5161658B2 (ja) 2008-05-30 2008-05-30 キーワード入力支援装置、キーワード入力支援方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2009289202A JP2009289202A (ja) 2009-12-10
JP5161658B2 true JP5161658B2 (ja) 2013-03-13

Family

ID=41381048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008143644A Active JP5161658B2 (ja) 2008-05-30 2008-05-30 キーワード入力支援装置、キーワード入力支援方法及びプログラム

Country Status (2)

Country Link
US (1) US8874590B2 (ja)
JP (1) JP5161658B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9047283B1 (en) * 2010-01-29 2015-06-02 Guangsheng Zhang Automated topic discovery in documents and content categorization
JP2011180729A (ja) * 2010-02-26 2011-09-15 Sony Corp 情報処理装置、キーワード登録方法及びプログラム
JP5494100B2 (ja) * 2010-03-25 2014-05-14 富士通モバイルコミュニケーションズ株式会社 情報処理装置
JP5248655B2 (ja) * 2011-05-18 2013-07-31 株式会社東芝 情報処理装置およびプログラム
US9805718B2 (en) * 2013-04-19 2017-10-31 Sri Internaitonal Clarifying natural language input using targeted questions
JP6764262B2 (ja) * 2016-06-10 2020-09-30 三菱重工業株式会社 索引情報生成装置、索引情報生成方法及び索引情報生成プログラム
CN108319627B (zh) * 2017-02-06 2024-05-28 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
JP6795467B2 (ja) * 2017-07-14 2020-12-02 株式会社日立製作所 情報収集支援装置および情報収集支援方法
CN108874769A (zh) * 2018-05-16 2018-11-23 深圳开思时代科技有限公司 配件名称标准化方法及装置、电子设备和介质
JP6805206B2 (ja) * 2018-05-22 2020-12-23 日本電信電話株式会社 検索ワードサジェスト装置、表現情報の作成方法、および、表現情報の作成プログラム
KR102235097B1 (ko) * 2019-05-31 2021-04-02 주식회사 미소테크 텍스트 객체로부터 키워드를 추출하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
KR102313037B1 (ko) * 2020-03-23 2021-10-14 윤종식 동영상을 추천하기 위한 방법 및 시스템
CN111930883A (zh) * 2020-07-01 2020-11-13 深信服科技股份有限公司 一种文本聚类方法、装置、电子设备和计算机存储介质
US12033619B2 (en) * 2020-11-12 2024-07-09 International Business Machines Corporation Intelligent media transcription
CN116414939B (zh) * 2023-06-06 2023-09-26 南京国准数据有限责任公司 基于多维度数据的文章生成方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3422350B2 (ja) * 1996-02-09 2003-06-30 日本電信電話株式会社 追加検索語候補提示方法、文書検索方法およびそれらの装置
JPH09259133A (ja) * 1996-03-19 1997-10-03 Toshiba Corp 文書検索装置および検索方法
JP3099756B2 (ja) * 1996-10-31 2000-10-16 富士ゼロックス株式会社 文書処理装置、単語抽出装置及び単語抽出方法
JPH10171821A (ja) * 1996-12-06 1998-06-26 Nippon Telegr & Teleph Corp <Ntt> 検索語候補提示方法およびその装置
JP2001290840A (ja) * 2000-04-04 2001-10-19 Matsushita Electric Ind Co Ltd キーワード検索装置
JP2002189734A (ja) * 2000-12-21 2002-07-05 Ricoh Co Ltd 検索語抽出装置および検索語抽出方法
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
JP2004054619A (ja) * 2002-07-19 2004-02-19 Nec Soft Ltd 文書検索システム、文書検索方法、および、文書検索プログラム
JP4179858B2 (ja) * 2002-11-28 2008-11-12 株式会社リコー 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP2005078338A (ja) * 2003-08-29 2005-03-24 Ricoh Co Ltd 情報処理装置、情報処理システム、情報処理方法、情報処理プログラム及び記録媒体
JP2005293213A (ja) * 2004-03-31 2005-10-20 Sharp Corp 文字列抽出装置、コンテンツ検索装置、文字列抽出方法、プログラムおよび記録媒体
JP4081056B2 (ja) 2004-08-30 2008-04-23 株式会社東芝 情報処理装置、情報処理方法及びプログラム
JP2006113976A (ja) * 2004-10-18 2006-04-27 Toshiba Corp コンテンツ表示装置及びコンテンツ表示方法
JP5060020B2 (ja) * 2004-10-29 2012-10-31 株式会社エヌ・ティ・ティ・ドコモ コンテンツ発見装置

Also Published As

Publication number Publication date
US20090300003A1 (en) 2009-12-03
JP2009289202A (ja) 2009-12-10
US8874590B2 (en) 2014-10-28

Similar Documents

Publication Publication Date Title
JP5161658B2 (ja) キーワード入力支援装置、キーワード入力支援方法及びプログラム
US9411827B1 (en) Providing images of named resources in response to a search query
US8001135B2 (en) Search support apparatus, computer program product, and search support system
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US9323827B2 (en) Identifying key terms related to similar passages
JP5469046B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
JP2002055872A (ja) ウェブコンテンツを簡略化するための方法、システムおよび媒体
JP2011529600A (ja) 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
CN103430172A (zh) 检索装置、检索方法及程序
US20050120114A1 (en) Content synchronization system and method of similar web pages
JP4430598B2 (ja) 情報共有システムおよび情報共有方法
JP6932162B2 (ja) 地域に基づくアイテム推薦端末装置及びアイテム推薦情報提供方法。
JP5056133B2 (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
JP2002189721A (ja) Webページ検索システム及び翻訳システム
JP3746233B2 (ja) 知識分析システムおよび知識分析方法
US11314793B2 (en) Query processing
JP2004362121A (ja) 情報検索装置、携帯情報端末装置、情報検索方法、情報検索プログラム及び記録媒体
JP2002334113A (ja) 文書データの表示制御方法および文書データ表示制御装置
JP2002189744A (ja) Webページ検索システム
JP4423385B2 (ja) 文書分類支援装置およびコンピュータプログラム
Wei et al. Assisted human-in-the-loop adaptation of Web pages for mobile devices
JPH11272709A (ja) ファイル検索方式
JP4496797B2 (ja) 文書管理装置および方法
JP2008287636A (ja) 情報処理装置、ブックマーク表示方法およびブックマーク表示プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121214

R151 Written notification of patent or utility model registration

Ref document number: 5161658

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350