JP5727415B2 - 文書検索用関連語発見装置及び方法及びプログラム - Google Patents

文書検索用関連語発見装置及び方法及びプログラム Download PDF

Info

Publication number
JP5727415B2
JP5727415B2 JP2012113851A JP2012113851A JP5727415B2 JP 5727415 B2 JP5727415 B2 JP 5727415B2 JP 2012113851 A JP2012113851 A JP 2012113851A JP 2012113851 A JP2012113851 A JP 2012113851A JP 5727415 B2 JP5727415 B2 JP 5727415B2
Authority
JP
Japan
Prior art keywords
word
occurrence
search
previous
post
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012113851A
Other languages
English (en)
Other versions
JP2013242621A (ja
Inventor
京介 西田
京介 西田
高秀 星出
高秀 星出
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012113851A priority Critical patent/JP5727415B2/ja
Publication of JP2013242621A publication Critical patent/JP2013242621A/ja
Application granted granted Critical
Publication of JP5727415B2 publication Critical patent/JP5727415B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書検索用関連語発見装置及び方法及びプログラムに係り、特に、検索エンジンなどの検索ログから取得可能な「検索語の共起関係」と「検索語の入力順序」を利用して、マイクロブログなどの文書集合の中から、検索語に関連する文書を、高い検索精度を保ちながら、より網羅的に取得するために役立つ関連語を推定する文書検索用関連語発見装置及び方法及びプログラムに関する。
近年、利用者自身の状況や雑記などを短い文章で投稿するマイクロブログの普及が進んでいる。マイクロブログでは1つの文書に含まれる単語が少ないため、一つの語による検索では、利用者が求める文書検索の網羅性を十分に上げることができない。
ここで、検索語を増やせば、OR検索により文書検索の網羅性を上げることができる。検索語を増やすためには、検索語に関連する語を発見すればよい。関連語の抽出のためには、語の共起集合や、2つの語の出現に関する独立性の検定によって、関連語を発見する手法が従来提案されてきた(例えば、非特許文献1参照)。
佐々木靖広、佐藤理史、宇津呂武仁著「関連用語収集問題とその解法」、言語処理学会、自然言語処理 Vol.13 No.3、pp.151-175,2006年7月
しかし、上記従来の手法による関連語は、文書検索を絞り込むための関連語としては有用であるが、検索結果の網羅性を上げるために、検索語と発見した複数関連語でOR検索を行うには不適切な語も多数発見されてしまう。つまり、検索結果に、元々の検索結果とは無関係な文書が含まれてしまう。たとえば、検索語が「ゴルフ」のとき、「スイング」は「ゴルフ」に関連する語ではあるが、同時に「テニス」などの文書とも関連してしまい、検索の精度が落ちてしまう。
上記のように、現在は、文書検索の精度を保ちつつ、網羅性を向上させるための関連語発見技術は存在しない。
ここで、検索エンジンの利用者が、複数の検索語を入力して検索を行う場合、語の入力順序には語の抽象度の大小関係が統計的に反映されることが知られている(たとえば、文献「山口雅史、大島裕明、小山聡、田中克己「サーチエンジンのクエリログを利用した同位語・話題語の発見と可視化」、情報処理学会研究報告、2006-DBS-140、147-154、2006年7月」)。すなわち、抽象的な語ほど先に入力されて、絞り込みの役目を果たす具体的な語ほど後に入力されやすい。
本発明は、上記の点に鑑みてなされたもので、大量の検索ログから推定できる「検索語の共起関係」と「検索語の入力順序」を利用する前提において、検索語のみに強く関連し、他の語には関連しない語、すなわち、文書検索の精度を保ちつつ検索網羅性を向上できる文書検索用関連語を取得する文書検索用関連語発見装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明(請求項1)は、文書検索の検索語qに関連する語を発見する文書検索用関連語発見装置であって、
過去の文書検索において入力順序を有する複数の語で文書検索が行われた際の、入力順序の前後関係を持つ2語の組の共起頻度について記憶する検索共起語記憶手段と、
指定語を一つ入力として受け取り、前記検索共起語記憶手段から、該指定語よりも入力順序が後の共起語である後共起語の集合を取得する後共起語集合取得手段と、
指定語を一つ入力として受け取り、前記検索共起語記憶手段から、該指定語よりも入力順序が前の共起語である前共起語の集合を取得する前共起語集合取得手段と、
指定語を二つ入力として受け取り、前記検索共起語記憶手段から、第一の指定語が、第二の指定語よりも前に出現して共起した頻度を取得する共起頻度取得手段と、
前記後共起語集合取得手段で取得された前記検索語qの後共起語集合に含まれる各後共起語aについて、前記前共起語集合取得手段で取得された該後共起語aの前共起語集合を取得し、該前共起集合に含まれる各前共起語bについて、前記共起頻度取得手段で取得した該前共起語bと該後共起語aの組の共起頻度を取得し、取得した全ての共起頻度集合を用いて、前記検索語qに関する該後共起語aの検索精度p(q|a)を推定する検索精度推定手段と、
前記検索精度推定手段の出力に基づいて、前記検索語の後共起語集合に含まれる語の中から、前記検索語に関連する関連語を決定する関連語決定手段と、を有する。
また、本発明(請求項2)は、前記検索精度推定手段において、
前記後共起語集合取得手段で得られた前記検索語qの後共起語集合に含まれる各後共起語aについて、前記前共起語集合取得手段で得られた該後共起語aの前共起語集合を取得し、該前共起集合に含まれる各前共起語bについて、前記検索語qに関する該前共起語bの前記検索精度p(q|b)と、該前共起語bに関する該後共起語aの前記検索精度p(b|a)を推定し、推定した全ての検索精度を用いて、前記検索語qに関する該後共起語aの検索精度p(q|a)を推定する手段を含む。
上記のように本発明の文書分類装置によれば、検索エンジンにおいて、入力順序を有する複数の語で文書検索が行われた際の、検索語の順序と共起頻度のログを利用して、検索語よりも具体的で、検索語と共起する確率が高い語を発見するので、OR検索において文書検索の精度を保ちつつ検索網羅性を向上できる語を精度よく発見できる。
本発明の一実施の形態における文書検索用関連語発見装置の構成図である。 本発明の一実施の形態における文書検索用関連語発見装置の動作のフローチャートである。 本発明の一実施の形態における検索共起語記憶部の共起語テーブルの例である。 本発明の一実施の形態におけるスコア計算例である。 本発明の一実施の形態における関連語の決定例である。
以下、図面と共に本発明の実施の形態を説明する。
図1は、本発明の一実施の形態における文書分類装置の構成を示す。
同図に示す文書検索用関連語発見装置は、検索共起語記憶部60と後共起語集合取得部10と前共起語集合取得部20と共起頻度取得部30と検索精度推定部40と関連語決定部50から構成され、入力として与えられた検索語の関連語を出力する。
図2は、本発明の一実施の形態における文書検索用関連語発見装置の学習動作フローチャートである。
ステップ1)後共起語集合取得部10は、検索語qを指定語として受け取り、該指定語の後共起語集合A(q)を、検索共起語記憶部60より取得する。図3に、検索共起語記憶部60が記憶する共起語テーブルの例を示す。ここでは、検索語qが前共起語として含まれる行の後共起語の集合を取得する。
ステップ2)前共起語集合取得部20は、前記後共起語集合A(q)に含まれる各後共起語aを指定語として受取り、該指定語の前共起語集合B(a)を、検索共起語記憶部60より取得する。ここでは、図3に示す共起語テーブルにおいて、検索語qが後共起語として含まれる行の前共起語の集合を取得する。なお、B(a)には検索語qが含まれる。
ステップ3)全ての後共起語aと前共起語bの組を指定語として受取り、共起頻度取得部30を用いて、図3に示す共起語テーブルより、前共起語b(第一の指定語)と後共起語a(第二の指定語)の共起頻度f(b→a)を取得する。
ステップ4)検索精度推定部40は、後共起語aの、検索語qに対する検索精度p(q|a)を、以下の式により推定する。
Figure 0005727415
ここで、γはスムージングパラメータであり、0.5などの値を指定する。また、|B(a)|は、B(a)に含まれる後共起語の個数を示す。式(1)の値が1に近い後共起語aは、検索語qよりも具体的で、かつ検索語qにしか関連しない。よって、後共起語aにより検索すれば、検索語qは含まないが、検索語qに関連する文書を発見できる様になる。
また、p(q|a)は、以下のように計算しても良い(請求項2:検索精度推定手段)
Figure 0005727415
式(1)では、後共起語aが検索語q以外の前共起語bと多く共起するような場合に、検索精度が低くなってしまう。しかし、式(2)では、前共起語bと検索語qの関連をp(q|b)により推定し、その影響を考慮するので、後共起語aの前共起集合B(a)が、すべて検索語qに強く関連する場合は、後共起語aの検索精度が1に近づく推定を行うことができる。
ステップ5)関連語決定部50は、各後共起語aの、検索語qに対する検索スコアscore(a;q)を、以下の式により推定する。
Figure 0005727415
ここで、θは検索精度の閾値であり、検索結果に、検索語qに関連しない語が含まれる割合を調節する。θが高いほど、検索結果の文書集合は検索語qに関するものが多く含まれるが、検索の結果発見された文書数は少なくなる。たとえば、図4に、γ=0.5、θ=0.95と指定し、式(1)と式(3)によりscore(a;q)を計算した例を示す。ここでは、検索語として「ゴルフ」を与えた際に、「ゴルフ」としか共起しない後共起語「ダブルボギー」の検索精度p(ゴルフ|ダブルボギー)は高くなるが、他の語とも多く共起する後共起語「ルール」の検索精度p(ゴルフ|ルール)は低くなっていることが分かる。
そして、関連語決定部50は、score(a;q)>0を満たす後共起語aのうち、最も値が大きいN個を検索語qの関連語として決定し、出力する。また、score(a;q)>αを満たす語をすべて検索語qの関連語として決定し、出力しても良い。図5に関連語の決定例を示す。ここでは、θ=0.95、N=2として、検索語「ゴルフ」の関連語「ホールインワン」「ダブルボギー」を発見している。
上記のように本発明では、クエリログから取得可能な検索語の共起関係と検索語の抽象度の大小関係を利用することにより、検索語qよりも具体的で、qと統計的有意に多く共起し、補完後(特に、qに関連のない語)には共起しない語の集合{w}を取得できる。当該qの関連語集合{w}によってqに関連する文書を検索精度を保ちながら網羅的に抽出できる。
本発明は、どのような文書の検索に対しても適用可能な関連語を出力するが、特に、Twitter(登録商標)などのマイクロブログに代表される、文書長の短い文書の検索において有効な関連語を出力できる。
また、本発明は、図1に示す構成要素の動作をプログラムとして構築し、マイクロブログ文書分類装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクやフレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
10 後共起語集合取得部
20 前共起語集合取得部
30 共起頻度取得部
40 検索精度推定部
50 関連語決定部
60 検索共起語記憶部

Claims (5)

  1. 文書検索の検索語qに関連する語を発見する文書検索用関連語発見装置であって、
    過去の文書検索において入力順序を有する複数の語で文書検索が行われた際の、入力順序の前後関係を持つ2語の組の共起頻度について記憶する検索共起語記憶手段と、
    指定語を一つ入力として受け取り、前記検索共起語記憶手段から、該指定語よりも入力順序が後の共起語である後共起語の集合を取得する後共起語集合取得手段と、
    指定語を一つ入力として受け取り、前記検索共起語記憶手段から、該指定語よりも入力順序が前の共起語である前共起語の集合を取得する前共起語集合取得手段と、
    指定語を二つ入力として受け取り、前記検索共起語記憶手段から、第一の指定語が、第二の指定語よりも前に出現して共起した頻度を取得する共起頻度取得手段と、
    前記後共起語集合取得手段で取得された前記検索語qの後共起語集合に含まれる各後共起語aについて、前記前共起語集合取得手段で取得された該後共起語aの前共起語集合を取得し、該前共起集合に含まれる各前共起語bについて、前記共起頻度取得手段で取得した該前共起語bと該後共起語aの組の共起頻度を取得し、取得した全ての共起頻度集合を用いて、前記検索語qに関する該後共起語aの検索精度p(q|a)を推定する検索精度推定手段と、
    前記検索精度推定手段の出力に基づいて、前記検索語の後共起語集合に含まれる語の中から、前記検索語に関連する関連語を決定する関連語決定手段と、
    を有することを特徴とする文書検索用関連語発見装置。
  2. 前記検索精度推定手段は、
    前記後共起語集合取得手段で得られた前記検索語qの後共起語集合に含まれる各後共起語aについて、前記前共起語集合取得手段で得られた該後共起語aの前共起語集合を取得し、該前共起集合に含まれる各前共起語bについて、前記検索語qに関する該前共起語bの前記検索精度p(q|b)と、該前共起語bに関する該後共起語aの前記検索精度p(b|a)を推定し、推定した全ての検索精度を用いて、前記検索語qに関する該後共起語aの検索精度p(q|a)を推定する手段を含む、
    ことを特徴とする請求項1記載の文書検索用関連語発見装置。
  3. 文書検索の検索語qに関連する語を発見する文書検索用関連語発見方法であって、
    過去の文書検索において入力順序を有する複数の語で文書検索が行われた際の、入力順序の前後関係を持つ2語の組の共起頻度について記憶する検索共起語記憶手段を有する装置において、
    後共起語集合取得手段が、指定語を一つ入力として受け取り、前記検索共起語記憶手段から、該指定語よりも入力順序が後の共起語である後共起語の集合を取得する後共起語集合取得ステップと、
    前共起語集合取得手段が、指定語を一つ入力として受け取り、前記検索共起語記憶手段から、該指定語よりも入力順序が前の共起語である前共起語の集合を取得する前共起語集合取得ステップと、
    共起頻度取得手段が、指定語を二つ入力として受け取り、前記検索共起語記憶手段から、第一の指定語が、第二の指定語よりも前に出現して共起した頻度を取得する共起頻度取得ステップと、
    検索精度推定手段が、前記後共起語集合取得ステップで得られた前記検索語qの後共起語集合に含まれる各後共起語aについて、前記前共起語集合取得ステップで得られた該後共起語aの前共起語集合を取得し、該前共起集合に含まれる各前共起語bについて、前記共起頻度取得ステップで得られた該前共起語bと該後共起語aの組の共起頻度を取得し、取得した全ての共起頻度集合を用いて、前記検索語qに関する該後共起語aの検索精度p(q|a)を推定する検索精度推定ステップと、
    関連語決定手段が、前記検索精度推定ステップで得られた前記検索語qに関する該後共起語aの検索精度p(q|a)に基づいて、前記検索語の後共起語集合に含まれる語の中から、前記検索語に関連する関連語を決定する関連語決定ステップと、
    を行うことを特徴とする文書検索用関連語発見方法。
  4. 前記検索精度推定ステップにおいて、
    前記後共起語集合取得ステップで得られた前記検索語qの後共起語集合に含まれる各後共起語aについて、前記前共起語集合取得ステップで得られた該後共起語aの前共起語集合を取得し、該前共起集合に含まれる各前共起語bについて、前記検索語qに関する該前共起語bの前記検索精度p(q|b)と、該前共起語bに関する該後共起語aの前記検索精度p(b|a)を推定し、推定した全ての検索精度を用いて、前記検索語qに関する該後共起語aの検索精度p(q|a)を推定する、
    ことを特徴とする請求項3記載の文書検索用関連語発見方法。
  5. コンピュータを、
    請求項1または2記載の文書検索用関連語発見装置の各手段として機能させるための文書検索用関連語発見プログラム。
JP2012113851A 2012-05-17 2012-05-17 文書検索用関連語発見装置及び方法及びプログラム Expired - Fee Related JP5727415B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012113851A JP5727415B2 (ja) 2012-05-17 2012-05-17 文書検索用関連語発見装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012113851A JP5727415B2 (ja) 2012-05-17 2012-05-17 文書検索用関連語発見装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013242621A JP2013242621A (ja) 2013-12-05
JP5727415B2 true JP5727415B2 (ja) 2015-06-03

Family

ID=49843468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012113851A Expired - Fee Related JP5727415B2 (ja) 2012-05-17 2012-05-17 文書検索用関連語発見装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5727415B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012213273B4 (de) 2012-07-27 2021-08-05 Hydac Technology Gmbh Energiespeichervorrichtung
JP6679681B2 (ja) * 2018-09-19 2020-04-15 ヤフー株式会社 生成装置、生成方法及び生成プログラム
CN112989224B (zh) * 2021-03-25 2024-06-25 北京百度网讯科技有限公司 一种检索方法、装置、电子设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3422350B2 (ja) * 1996-02-09 2003-06-30 日本電信電話株式会社 追加検索語候補提示方法、文書検索方法およびそれらの装置
JP3598211B2 (ja) * 1998-01-13 2004-12-08 富士通株式会社 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体
JP4631795B2 (ja) * 2006-05-18 2011-02-16 日本電気株式会社 情報検索支援システム、情報検索支援方法および情報検索支援プログラム
KR101052631B1 (ko) * 2009-01-29 2011-07-28 성균관대학교산학협력단 동시 발생빈도를 이용한 검색어에 대한 연관어 제공 방법 및 이를 이용한 장치

Also Published As

Publication number Publication date
JP2013242621A (ja) 2013-12-05

Similar Documents

Publication Publication Date Title
Bhatia et al. Automatic labelling of topics with neural embeddings
US9558264B2 (en) Identifying and displaying relationships between candidate answers
CN105183923B (zh) 新词发现方法及装置
US9348900B2 (en) Generating an answer from multiple pipelines using clustering
Potthast et al. Overview of the 2nd international competition on plagiarism detection
CN102915314B (zh) 一种纠错对自动生成方法及系统
KR102080362B1 (ko) 쿼리 확장
US20180218241A1 (en) Webpage classification method and apparatus, calculation device and machine readable storage medium
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
CN108241613A (zh) 一种提取关键词的方法及设备
US20150262078A1 (en) Weighting dictionary entities for language understanding models
JP2009093647A (ja) ワードと文書の深さの決定
JP5727415B2 (ja) 文書検索用関連語発見装置及び方法及びプログラム
Rao et al. Reproducible experiments on lexical and temporal feedback for tweet search
JP5367632B2 (ja) 知識量推定装置及びプログラム
Perea-Ortega et al. Application of text summarization techniques to the geographical information retrieval task
TWI446191B (zh) Word matching and information query method and device
Ma et al. Web API discovery using semantic similarity and hungarian algorithm
JP5292336B2 (ja) 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム
JP5184195B2 (ja) 言語処理装置およびプログラム
CN111191126B (zh) 一种基于关键词的科技成果精准推送方法及装置
Chahal Measuring Similarity between Documents Using TF-IDF Cosine Similarity Function
Bashir Estimating retrievability ranks of documents using document features
Simo et al. Regrets: A new corpus of regrettable (self-) disclosures on social media

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150331

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150402

R150 Certificate of patent or registration of utility model

Ref document number: 5727415

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees