JP5399988B2 - 重要日時表現判定方法、重要日時表現判定装置、重要日時表現判定プログラム - Google Patents

重要日時表現判定方法、重要日時表現判定装置、重要日時表現判定プログラム Download PDF

Info

Publication number
JP5399988B2
JP5399988B2 JP2010145982A JP2010145982A JP5399988B2 JP 5399988 B2 JP5399988 B2 JP 5399988B2 JP 2010145982 A JP2010145982 A JP 2010145982A JP 2010145982 A JP2010145982 A JP 2010145982A JP 5399988 B2 JP5399988 B2 JP 5399988B2
Authority
JP
Japan
Prior art keywords
date
time expression
important
time
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010145982A
Other languages
English (en)
Other versions
JP2012008908A (ja
Inventor
伸章 廣嶋
由美子 松浦
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010145982A priority Critical patent/JP5399988B2/ja
Publication of JP2012008908A publication Critical patent/JP2012008908A/ja
Application granted granted Critical
Publication of JP5399988B2 publication Critical patent/JP5399988B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、電子文書に含まれる日時表現を特定し、特定された日時表現が文書内容の重要な表現か否かを判定するための技術に関する。
現在、ユーザ入力の検索キーワードに基づき電子文書(Webページを含む。)を検索するシステムが数多く存在しているものの、現在の検索システムでは日時表現を考慮した検索は難しい。例えば、「20XX年YY月ZZ日」に行われるイベントの情報を知りたいと思って、検索システムに「20XX年YY月ZZ日 イベント」と入力して検索を行うと、「20XX年YY月ZZ日」および「イベント」という2つのキーワードを含む電子文書は検索を行うことが可能であるが、日時の記述が「20XX−YY−ZZ」であるような電子文書は検索することができないという問題がある。
この問題を解決するためには、電子文書中に含まれる記述表現から日時を取得してインデクス化し、ユーザ入力のキーワードと日時をもとにインデクスを参照して文書検索を行うことにより、様々なパターンで記述された日時表現に対応できると考えられる。
ところが、電子文書中には様々な日時表現が記述され、その中には文書の内容と関係のない日時を表す日時表現が多く含まれているため、文書中のすべての日時表現に対して日時を取得してインデクスを作成すると、入力として指定した日時と異なる内容の文書が検索されてしまい、検索精度に影響を及ぼすという問題が生じる。
例えば、あるWebサイトにおいて日時ごとに文書が整理されているような場合には、文書を閲覧するために日時ごとのメニューやカレンダーなどが存在することが多いが、その中に含まれている日時表現は文書の内容に関する日時を表していないと考えられる。そのため、電子文書に含まれるそれぞれの日時表現が文書の内容に関連した重要な日時表現かどうかを判定する必要がある。
そこで、特許文献1に示すように、イベントの日時に関する情報を重要な日時表現として取得する手法が提案されている。また、非特許文献1では、電子文書(Webページ)の中から、その文書の発信を行った発信日時を重要な日時表現として取得する手法が提案されている。
特開2000−67082
河合 剛巨,中澤 聡,安藤 真一 "非定型文書を対象としたWebページの発信日付推定" 言語処理学会 第16回年次大会 発表論文集 2010年3月 p.242−245
しかしながら、特許文献1の手法では、特定のパターンで出現する表現をイベントに関する重要な日時表現として抽出しているが、その記述の形式は人によって異なり多岐にわたるため、パターンによって重要な日時表現を漏れなく取得することが困難なおそれがある。
また、非特許文献1の方法では、取得されるのは文書の発信日時であるため、文書に書かれている内容に関する日時とは異なる場合が多く、検索を行う上で重要な日時表現が取得できないおそれがある。例えば、ある日時に発信された文書において未来のイベントの情報に関する内容が記述されていた場合には検索を行う上で重要な日時表現は文書の発信日時ではなく、記述されているイベントが開催される日時であるため、発信日時を取得しても有益ではない。
本発明は、このような問題を解決するためになされたものであって、様々な形式で記述された日時表現に対して電子文書の内容に関連する重要な日時表現か否かを判定可能な技術の提供を解決課題としている。
そこで、本発明は、電子文書中における日時表現の表記パターン、日時表現の前後に出現する単語、日時表現の文書中での出現位置などを用いて、2値分類の機械学習手法により各日時表現が重要か否かを判定する。本発明の重要日時判定方法は、日時表現特定手段が、日時表現に該当する単語列のパターンが記述された日時表現辞書を参照して、入力された電子文書を構成する各文の単語列パターンから日時表現を特定する日時表現特定ステップと、日時表現文脈ベクトル取得手段が、前記特定ステップで特定された日時表現の表記パターン、該日時表現の前後に出現する単語、該日時表現の文書中での出現位置に基づき、事前に定めた特徴パターンにマッチするか否かを要素値とする日時表現文脈ベクトルを求める日時表現文脈ベクトル取得ステップと、重要日時表現判定手段が、前記ベクトル取得ステップで算出された日時表現文脈ベクトルを、事前の学習で作成した日時表現の重要・不要を判定するための重要日時表現判定モデルに応じて分類し、前記特定手段により特定された日時表現が重要か否かを判定する重要日時表現判定ステップと、を有する。
本発明の重要日時判定装置は、電子文書に含まれる日時表現を特定し、該日時表現が電子文書の内容に関わる重要な日時表現か否かを判定する重要日時表現判定装置であって、日時表現に該当する単語列のパターンが記述された日時表現辞書を参照して、入力された電子文書を構成する各文の単語列パターンから日時表現を特定する日時表現特定手段と、該特定手段により特定された日時表現の表記パターン、該日時表現の前後に出現する単語、該日時表現の文書中での出現位置に基づき、事前に定めた特徴パターンにマッチするか否かを要素値とする日時表現文脈ベクトル取得手段と、該ベクトル取得手段で求めた日時表現文脈ベクトルを、事前学習で作成した日時表現の重要・不要を判定するための重要日時表現判定モデルに応じて分類し、前記特定手段により特定された日時表現が重要か否かを判定する重要日時表現判定手段と、を備える。
なお、本発明は、前記判定装置としてコンピュータを機能させるための日時表現判定プログラムの態様としてもよい。このプログラムは、ネットワークや記録媒体を通じて提供することができる。
本発明によれば、様々な形式で記述された日時表現に対して電子文書の内容に関連する重要な日時表現か否かを判定することが可能となる。
本発明の実施形態に係る日時表現判定装置の構成例図。 同 前処理を示すフローチャート。 同 前処理の文書例 同 重要日時表現判定処理を示すフローチャート。 同 重要日時表現判定処理の文書例。
図1に基づき本発明の実施形態に係る日時表現判定装置を説明する。この判定装置1は、2値分類の機械学習手法により日時表現が重要か否かを判定する。ここでは電子文書中の日時表現に対して決められた特徴を持つか否かを採点し、さらに該日時表現が重要か否か(正解か否か)を与え、2値分類の機械学習手法を利用可能にさせている。
具体的には、前記判定装置1は、検索システムなどのサーバにより構成され、通常のコンピュータのハードウェアリソース、例えばCPU.メモリ(RAM).ハードディスクドライブ装置などを備える。このハードウェアリソースとソフトウェアリソース(OS.アプリケーションなど)との協働の結果、文分割部11,単語分割部12,日時表現特定部13,日時表現文脈ベクトル取得部14,重要日時表現判定モデル作成部15,重要日時表現判定部16,日時表現辞書17,重要日時表現判定モデルDB18を実装する。この辞書17およびDB18は、メモリ(RAM)やハードディスクドライブ装置などの記憶・保存手段に保持されている。
また、前記各部11〜16は、あらかじめ電子文書の学習により重要日時表現判定モデルを作成する前処理と、判定対象の電子文書に含まれる日時表現の重要・不要を前処理で作成された重要日時表現モデルを用いて判定する判定処理とを実行する。すなわち、文分割部11は、前記判定装置1に入力された電子文書を文毎に分解し、単語分割部12は、文分割部11により分割された各文を単語毎に分割する。
日時表現特定部13は、日時表現に該当する単語列のパターンが記述された日時表現辞書17を参照して単語分割部12で分割された各単語の単語列パターンから日時表現を特定する。また、日時表現文脈ベクトル取得部14は、前記特定手段13で特定された日時表現の特徴に基づき該日時表現の文脈中での用いられ方を表す日時表現文脈ベクトルを求める。この特徴は、主に日時表現の表記パターン、該日時表現の前後に出現する単語、該日時表現の文書中での出現位置が用いられる。このとき日時表現文脈ベクトル取得部14に入力文書の文書タイプを事前に用意された複数タイプに応じて判別する図示省略の文書タイプ判別部を設け、該判別結果を前記特徴に含めてもよい。これにより入力文書の文書タイプが日時表現文脈ベクトルに反映される。
重要日時表現判定モデル作成部15は、前処理時に電子文書の機械学習により重要日時判定モデルを作成する一方、重要日時表現判定部16は、実際の判定処理時に日時表現の重要・不要を判定する。すなわち、重要日時表現判定モデル作成部15は、前記各部11〜14の処理を経て算出された日時表現文脈ベクトルと、日時表現の重要度を数値化した日時表現重要度Gとを用いて、2値分類可能な機械学習手法により学習を行い、各日時表現の重要・不要を判定するための重要日時判定モデルを作成する。ここで作成された重要日時判定モデルは、前記DB18に格納される。
重要日時表現判定部16は、判定対象の電子文書に対して前記各部11〜14の処理を経て日時表現文脈ベクトルが求められれば、前記DB18を参照して該ベクトルに応じた重要日時判定モデルを取得する。そして、重要日時判定モデルと日時表現文脈ベクトルとを用いて、2値分類可能な機械学習手法により分類し、判定対象の電子文書に含まれる日時表現の重要・不要を判定する。この判定結果は重要日時つき文書として出力される。
≪前処理段階≫
まず、図2に基づき前記判定装置1の前処理の動作ステップを説明する。ここでは前記判定装置1は、ロボット型検索エンジンに応用され、Webページの文書、例えば図3の文書に対して前処理を行うものとする。この文書例は、WebページからHTMLタグが除去されているが、HTMLタグを含む文書であってもよい。なお、前記判定装置1は、図示省略の入力部への前記文書例の入力により前処理(S101〜S105)を開始する。
S101:文分割部11は、前記入力部に入力された前記文書例を文毎に分割する。ここでは文の終了を示す「。」.[!].「?」の単語を基準に前記文書を各文に分割することとする。なお、文書の文への分割は、例えばスペースを利用したり、連続する文字の並びから構成文の境界を定めてもよい。
Figure 0005399988
表1は、図3の文書例を文毎に分割した結果を示している。ここでは分割された各文に文番号「1〜7」が付与され、該文番号毎に文が列挙されている。
S102:単語分割部12は、S101で分割された各文を単語毎に分割する。ここでは形態素解析手法を用いて各文を単語に分割することとする。もっとも、単語への分割の手法は形態素解析手法に限定されるものではなく、他の手法を用いてもよい。
Figure 0005399988
表2は、表1の各文を分割した結果を示している。ここでは文番号毎に単語番号と単語とが列挙されている。
S103:日時表現特定部13は、日時表現に該当する単語列のパターンが記述された日時表現辞書17を参照して、S102で分割された単語列のパターンから図3の文書例に含まれる日時表現を特定する。
Figure 0005399988
表3は、日時表現辞書17の記述データ例を示し、パターン番号毎に日時表現の単語列パターンが列挙されている。ここではパターン番号「1」は、4桁の数字からなる単語が出現し、その次に単語「.」が連続して出現し、その次に1桁・2桁の数字からなる単語が連続して出現し、その次に単語「.」が連続して出現し、その次に1桁・2桁の数字からなる単語が連続して出現する単語列のパターンを示している。
パターン番号「2」は、1桁・2桁の数字からなる単語と単語「月」とのペア出現し、その次に1桁・2桁の数字からなる単語と単語「日」とのペアが連続して出現する単語列のパターンを示している。パターン番号「3」は、4桁の数字からなる単語と単語「年」とのペアが出現する単語列のパターンを示している。パターン番号「4」は、1桁・2桁の数字からなる単語と単語「月」とのペアが出現する単語列のパターンを示している。
パターン番号「5」は、4桁の数字からなる単語と単語「年」とのペアが出現し、その次に1桁・2桁の数字からなる単語と単語「月」とのペアが連続して出現し、その次に1桁・2桁の数字からなる単語と単語「日」とのペアが連続して出現し、その次に単語「(」が出現し、その次に「日」「月」「火」「水」「木」「金」「土」のいずれかの単語が出現し、その次に単語「)」が出現する単語列のパターンを示している。パターン番号「6」は、単語「今日」が出現する単語列のパターンを示している。このパターン番号「1〜6」には優先順位を設定してもよいものとする。
ここでは表2中、文番号2の単語番号1〜5までの単語列「2010.03.25」は、表3のパターン番号「1」に該当するため、日時表現として特定する。また、文番号2の単語番号7〜8の単語列「4月1日」は、表3のパターン番号「2」に該当するため、同様に日時表現として特定する。他の単語列についても同様に日時表現を特定する。
Figure 0005399988
表4は、図3の文書例に含まれる日時表現の特定結果の抜粋を示している。ここでは特定された日時表現の出現順位毎に「日時表現番号」が付与され、該日時表現毎に文番号と単語番号とが記述されている。
S104:日時表現文脈ベクトル取得部14は、S103で特定された日時表現(表4の日時表現)の特徴、即ち該日時表現の表記パターン、該日時表現の前後に出現する単語、該日時表現の前記文書例における出現位置などに基づき該日時表現がどのような文脈で用いられているのかを表す日時表現文脈ベクトルを求める。
ここでは日時表現文脈ベクトル取得部14は、前記文書例の文書タイプを文書判別部で判別し、該判別結果を前記特徴に加えて日時表現文脈ベクトルを求めることとする。もっとも、文書中の日時表現の表記パターンと、該日時表現の前後に出現する単語と、日時表現の文書中での出現位置とを前記特徴とすれば、文書タイプを前記特徴に加えなくともよい。また、文書がWebページの文書であればHTMLのタグを前記特徴に加えてもよい。
具体的には、前記文書タイプの判別部は、事前に用意した文書タイプに応じて図3の文書例の文書タイプを判別する。ここでは一例として「一般」、「日記」の二種類の文書タイプを用意してあるものとする。この文書タイプは、前記二種類に限定されるものではなく、「企業サイト」などの文書タイプを用いてもよい。文書タイプの判定手法としては、あらかじめ一般の文書と日記の文書とを学習データとして用意し、該学習データに含まれる単語を用いて2値分類可能な機械学習により学習を行っておき、入力文書(前記文書例)に対してその中に含まれる単語を用いて2値分類可能な機械学習により分類し、文書タイプが「一般」あるいは「日記」かの判別を行う。文書タイプの判別手法の他例としては、文書内に日記特有の単語列が含まれる場合に「日記」と判別したり、WebページのURLに特有の文字列が含まれている場合に「日記」と判別してもよい。
この判別後に日時表現文脈ベクトル取得部14は、前記特徴をテーブルに記述された特徴パターンと照合し、前記文書例の日時表現文脈ベクトルを求める。このテーブルは、メモリ(RAM)あるいはハードディスクドライブ装置などに記憶・保存されているものとする。
Figure 0005399988
表5は、前記テーブルの特徴パターン例を示し、特徴パターン毎に特徴番号が付与されている。この特徴パターンは、表5の例に限定されるものではなく、例えば特徴番号1〜5以外の日時表現パターンを用いてもよく、前後の日時表現の表記パターンを特徴パターンに用いてもよく、日時表現の前後に出現する単語の種類を特徴番号4〜9よりも増加させてもよく、前後に出現する単語を10単語以内としてもよく、文書の先頭からN番目以内の文に含まれるか否かを用いてもよく、複数の特徴パターンの「AND」や「OR」などを用いてもよく、各特徴パターンの重み付けをしてもよい。
そして、日時表現文脈ベクトル取得部14は、前記各特徴に対してi番目(表5の例では「i=1〜13」)の特徴パターンにマッチする場合は「1」・マッチしない場合は「0」を、i番目の要素の値とするベクトルを日時表現文脈ベクトルとして求める。なお、表6は、日時表現文脈ベクトルの取得結果を示し、日時表現番号毎に特徴番号「1〜13」に対する前記マッチングの結果が示されている。
Figure 0005399988
S105:重要日時表現判定モデル作成部15は、S104で求めた日時表現文脈ベクトルと、事前に定められた日時表現重要度Gとを用いて2値分類可能な機械学習手法により学習を行い、S103で特定された日時表現(表4の日時表現)の重要・不要を判定するための重要日時表現判定モデルを作成する。
この日時表現重要度は、S103で特定された日時表現が重要か否かを離散値で表し、テーブルに記述されている。このテーブルも、メモリ(RAM)あるいはハードディスクドライブ装置などに記憶・保存されている。ここでは日時表現重要度は、表7のテーブル例に示すように、日時表現が重要である場合には「1」・重要でない場合には「−1」が記述されているものとする。
Figure 0005399988
そして、重要日時表現判定モデル作成部15は、S104で求めた各日時表現文脈ベクトルを素性ベクトル(訓練データ)、日時表現重要度Gを正解クラスとして、2値分類可能な機械学習の一種であるサポートベクターマシンにより学習を行い、重要日時表現判定モデルを作成する。例えば訓練データを「x=日時表現ベクトル」、「y=マッチング結果(1 or −1)」とし、正解クラスに最も適合する関数関係「y=f(x)」を求める。これにより判定処理時に未知の日時表現文脈ベクトルに関係関数を適用し、日時表現の正解クラスを得ることが可能となる。
ここでは機械学習の手法は、サポートベクターマシンに限るものではなく、2値学習が可能であればよく、例えば最大エントロピー法やブースティングなどの機械学習を用いてもよい。なお、作成された重要日時表現判定モデルは、前記DB18に格納され、前処理を終了する。
≪判定処理段階≫
つぎに図4に基づき実際の判定処理の動作ステップを説明する。ここでは前処理と同様に前記判定装置1はロボット型検索エンジンに応用され、クローラ(ロボットスパイダー)のクローリングによりWWW(World Wide Web)から収集されたWebページの文書、例えば図5の文書例に含まれる日時表現が重要か否かを判定するものとする。この文書例は、図3の文書例と同様にWebページからHTMLタグが除去されているが、HTMLタグを含む文書であってもよい。なお、前記入力部への前記文書例の入力により判定処理(S201〜S205)が開始される。
S201〜S204:S201では、S101と同様に文分割部11が前記文書例を文毎に分割する(S201)。S202では、S102と同様に単語分割部12がS201で分割された各文を単語毎に分割する。S203では、S103と同様に日時表現特定部13が日時表現に該当する単語列のパターンが記述された日時表現辞書17を参照して、S202で分割された単語列のパターンから前記文書例に含まれる日時表現を特定する。
S204では、S104と同様に日時表現文脈ベクトル取得部14が、S203で特定された日時表現の表記パターン、該日時表現の前後に出現する単語、該日時表現の前記文書例における出現位置などの特徴に基づき該日時表現がどのような文脈で用いられているのかを表す日時表現文脈ベクトルを求める。
S205:重要日時表現判定部16は、S204で求めた日時表現文脈ベクトルと重要日時表現判定モデルとを用いて、2値分類可能な機械学習により分類を行い、各日時表現の重要・不要を判定する。
すなわち、重要日時表現判定部16は、前記DB18を参照して重要日時表現判定モデルを取得する。この取得後に各日時表現の日時表現文脈ベクトルを素性ベクトルとして、S105の学習のときと同様にサポートベクターマシンにより重要日時表現判定モデルに応じて2値分類を行い、各日時表現の重要性を表す正負の尤度を取得する。
この機械学習手法は、サポートベクターマシンに限らず、S105の学習のときに利用した手法と同様であればよく、最大エントロピー法やブースティングなどの機械学習手法を用いてもよい。サポートベクターマシンを用いた場合には、得られた尤度の符号によって日時表現の重要・不要を判定することができる。尤度が「正」であれば重要・「負」であれば不要と判定する。
Figure 0005399988
表8は、重要日時表現判定部16の判定結果を示し、日時表現番号毎に日時表現の「重要・不要」が示されている。この判定結果を出力し、前記文書例の判定処理を終了する。
このように前記判定装置1によれば、電子文書中の日時表現の表記パターン、日時表現の前後に出現する単語、日時表現の文書中での出現位置を用いて、2値分類の機械学習により日時表現の重要・不要を判定することで、様々な形式で記述された日時表現に対して電子文書の内容に関連する重要な日時表現か否かを判定することができる。このとき文書タイプを加えて日時表現の重要・不要を判定すれば、文書タイプに即した判定結果が得られ、判定精度の向上が期待できる。
この判定結果は、検索エンジンのサーバにインデックス化されるため、ユーザ入力の検索キーワードと日時表現とを基に該インデックスを参照して文書検索することにより、検索エンジンが様々なパターンで記述された日時表現に対応でき、検索精度の向上に貢献する。
なお、本発明は、上記実施形態に限定されるものではなく、装置構成や処理内容などは各請求項に記載した範囲内で変形することができる。例えば、前記判定装置1は検索エンジンだけではなく、社内ネットワークの文書検索システムにも応用可能である。
≪プログラムなど≫
本発明は、前記判定装置1の各部11〜18の一部もしくは全部として、コンピュータを機能させるプログラムとして構成することもできる。この場合には、前処理(S101〜S105)、判定処理(S201〜S205)の全ステップあるいは一部のステップをコンピュータに実行させる。
このプログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BR−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
本発明は、時間を考慮した検索を行う検索システムの開発などに利用可能である。
1…日時表現重要度判定装置
11…文分割部(文分割手段)
12…単語分割部(単語分割手段)
13…日時表現特定部(日時表現特定手段)
14…日時表現文脈ベクトル取得部(日時表現文脈ベクトル取得手段)
15…重要日時表現判定モデル作成部(重要日時表現判定モデル作成手段)
16…重要日時表現判定部(重要日時表現判定手段)
17…日時表現辞書
18…重要日時表現判定モデルDB
G…日時表現重要度

Claims (9)

  1. 電子文書に含まれる日時表現に対して、電子文書の内容に関連する重要な日時表現か否かを判定する重要日時表現判定方法であって、
    日時表現特定手段が、日時表現に該当する単語列のパターンが記述された日時表現辞書を参照して、入力された電子文書を構成する各文の単語列パターンから日時表現を特定する日時表現特定ステップと、
    日時表現文脈ベクトル取得手段が、前記特定ステップで特定された日時表現の表記パターン、該日時表現の前後に出現する単語、該日時表現の文書中での出現位置に基づき、事前に定めた特徴パターンにマッチするか否かを要素値とする日時表現文脈ベクトルを求める日時表現文脈ベクトル取得ステップと、
    重要日時表現判定手段が、前記ベクトル取得ステップで算出された日時表現文脈ベクトルを、事前の学習で作成した日時表現の重要・不要を判定するための重要日時表現判定モデルに応じて分類し、前記特定手段により特定された日時表現が重要か否かを判定する重要日時表現判定ステップと、
    を有することを特徴とする重要日時判定方法。
  2. 前記学習時に前記特定ステップおよび前記ベクトル取得ステップを通じて日時表現文脈ベクトルを求め、
    重要日時表現判定モデル作成手段が、該日時表現文脈ベクトルと日時表現の重要性を数値化した日時表現重要度とを用いて、2値分類可能な機械学習により前記判定モデルを作成する重要日時表現判定モデル作成ステップをさらに有する
    ことを特徴とする請求項1記載の重要日時判定方法。
  3. 文分割手段が、入力された電子文書を文毎に分割する文分割ステップと、
    単語分割手段が、文分割ステップで分割された各文を単語毎に分割する単語分割ステップと、をさらに有し、
    前記特定ステップは、前記単語分割ステップで分割された単語の単語列パターンから日時表現を特定する
    ことを特徴とする請求項1または2のいずれか1項に記載の重要日時判定方法。
  4. 文書タイプ判別手段が、事前に用意された文書タイプに応じて、入力された電子文書の文書タイプを判別する文書タイプ判別ステップをさらに有し、
    前記ベクトル取得ステップにおいて、前記判別ステップの判別結果を前記日時表現文脈ベクトルに反映させる
    ことを特徴とする請求項1〜3のいずれか1項に記載の重要日時判定方法。
  5. 電子文書に含まれる日時表現に対して、電子文書の内容に関連する重要な日時表現か否かを判定する重要日時表現判定装置であって、
    電子文書に含まれる日時表現を特定し、該日時表現が電子文書の内容に関わる重要な日時表現か否かを判定する重要日時表現判定装置であって、
    日時表現に該当する単語列のパターンが記述された日時表現辞書を参照して、入力された電子文書を構成する各文の単語列パターンから日時表現を特定する日時表現特定手段と、
    該特定手段により特定された日時表現の表記パターン、該日時表現の前後に出現する単語、該日時表現の文書中での出現位置に基づき、事前に定めた特徴パターンにマッチするか否かを要素値とする日時表現文脈ベクトル取得手段と、
    該ベクトル取得手段で求めた日時表現文脈ベクトルを、事前学習で作成した日時表現の重要・不要を判定するための重要日時表現判定モデルに応じて分類し、前記特定手段により特定された日時表現が重要か否かを判定する重要日時表現判定手段と、
    を備えることを特徴とする重要日時判定装置。
  6. 前記学習時に前記特定手段および前記ベクトル取得手段で求めた日時表現文脈ベクトルと、日時表現の重要性を数値化した日時表現重要度とを用いて、
    2値分類可能な機械学習により前記判定モデルを作成する重要日時表現判定モデル作成手段をさらに備える
    ことを特徴とする請求項5記載の重要日時判定装置。
  7. 入力された電子文書を文毎に分割する文分割手段と、該文分割手段により分割された各文を単語毎に分割する単語分割手段とをさらに備え、
    前記特定手段が、前記単語分割手段により分割された単語の単語列パターンから日時表現を特定する
    ことを特徴とする請求項5または6のいずれか1項に記載の重要日時判定装置。
  8. 事前に用意された文書タイプに応じて、入力された電子文書の文書タイプを判別する文書タイプ判別手段をさらに備え、
    前記ベクトル取得手段が、前記判別手段の判別結果を前記日時表現文脈ベクトルに反映させる
    ことを特徴とする請求項3記載の重要日時判定装置。
  9. 請求項5〜請求項8のいずれか1項に記載の重要日時判定装置としてコンピュータを機能させるための重要日時判定プログラム。
JP2010145982A 2010-06-28 2010-06-28 重要日時表現判定方法、重要日時表現判定装置、重要日時表現判定プログラム Active JP5399988B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010145982A JP5399988B2 (ja) 2010-06-28 2010-06-28 重要日時表現判定方法、重要日時表現判定装置、重要日時表現判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010145982A JP5399988B2 (ja) 2010-06-28 2010-06-28 重要日時表現判定方法、重要日時表現判定装置、重要日時表現判定プログラム

Publications (2)

Publication Number Publication Date
JP2012008908A JP2012008908A (ja) 2012-01-12
JP5399988B2 true JP5399988B2 (ja) 2014-01-29

Family

ID=45539348

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010145982A Active JP5399988B2 (ja) 2010-06-28 2010-06-28 重要日時表現判定方法、重要日時表現判定装置、重要日時表現判定プログラム

Country Status (1)

Country Link
JP (1) JP5399988B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578285B (zh) * 2012-08-07 2017-03-08 上海博泰悦臻电子设备制造有限公司 车载设备和车载设备的语音提示方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09269940A (ja) * 1996-03-29 1997-10-14 Sharp Corp 日時等を抽出する装置
JP2000163418A (ja) * 1997-12-26 2000-06-16 Canon Inc 自然言語処理装置及びその方法、及びそのプログラムを格納した記憶媒体
JP3379443B2 (ja) * 1998-08-21 2003-02-24 日本電気株式会社 情報通知装置及び情報通知方法並びにプログラムを記録した機械読み取り可能な記録媒体
US20090187467A1 (en) * 2008-01-23 2009-07-23 Palo Alto Research Center Incorporated Linguistic extraction of temporal and location information for a recommender system
JP2009237640A (ja) * 2008-03-26 2009-10-15 National Institute Of Information & Communication Technology 情報抽出装置、情報抽出方法および情報抽出プログラム

Also Published As

Publication number Publication date
JP2012008908A (ja) 2012-01-12

Similar Documents

Publication Publication Date Title
US11030199B2 (en) Systems and methods for contextual retrieval and contextual display of records
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
US11762926B2 (en) Recommending web API's and associated endpoints
US8473473B2 (en) Object oriented data and metadata based search
JP5492187B2 (ja) 編集距離および文書情報を使用する検索結果順位付け
US20190129942A1 (en) Methods and systems for automatically generating reports from search results
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
US20150154306A1 (en) Method for searching related entities through entity co-occurrence
KR20160124079A (ko) 인-메모리 데이터베이스 탐색을 위한 시스템 및 방법
US20120016863A1 (en) Enriching metadata of categorized documents for search
CN117667841A (zh) 一种企业数据管理平台及方法
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
JP7293780B2 (ja) 情報処理装置、文書管理システム及びプログラム
JP5757551B2 (ja) 意味分類付与装置、意味分類付与方法、意味分類付与プログラム
JP5399988B2 (ja) 重要日時表現判定方法、重要日時表現判定装置、重要日時表現判定プログラム
JP5416552B2 (ja) ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
CN114218347A (zh) 多个文件内容的快速索引查找方法
US20090319505A1 (en) Techniques for extracting authorship dates of documents
JP5393392B2 (ja) 時間表現抽出装置、時間表現抽出方法および時間表現抽出プログラム
Hast et al. Making large collections of handwritten material easily accessible and searchable
WO2019142094A1 (en) System and method for semantic text search
Hast et al. TexT-Text Extractor Tool for Handwritten Document Transcription and Annotation
Kushnarenko et al. Web Technologies and Effective Representation Tools of the Archival Resources of Ukraine.
Thottempudi A visual narrative of ramayana using extractive summarization topic modeling and named entity recognition

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131024

R150 Certificate of patent or registration of utility model

Ref document number: 5399988

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350