JP2010287020A - 同義語展開システム及び同義語展開方法 - Google Patents
同義語展開システム及び同義語展開方法 Download PDFInfo
- Publication number
- JP2010287020A JP2010287020A JP2009139955A JP2009139955A JP2010287020A JP 2010287020 A JP2010287020 A JP 2010287020A JP 2009139955 A JP2009139955 A JP 2009139955A JP 2009139955 A JP2009139955 A JP 2009139955A JP 2010287020 A JP2010287020 A JP 2010287020A
- Authority
- JP
- Japan
- Prior art keywords
- synonym
- word
- context
- information
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】文書から抽出された単語を、各単語の出現文脈に適した同じ意味を示す同義語に展開する。
【解決手段】ある単語の係り先となる単語を含む第1文脈情報が格納された第1データベースを参照して、第1単語の第1文脈情報と第2単語の第1文脈情報とを比較することによって、類似度を計算し、類似度が高い第2単語を第1単語の同義語候補に決定し、ある単語から文章中で所定の語数内に出現する単語を含む第2文脈情報が格納された第2データベースを参照して、第1単語の第2文脈情報と少なくとも一以上の同義語候補の第2文脈情報とを比較することによって、文脈適合度を計算し、類似度及び文脈適合度に基づいて、同義語候補の同義語展開スコアを計算し、同義語展開スコアに基づいて、同義語候補から第1単語の同義語を決定する。
【選択図】図1
【解決手段】ある単語の係り先となる単語を含む第1文脈情報が格納された第1データベースを参照して、第1単語の第1文脈情報と第2単語の第1文脈情報とを比較することによって、類似度を計算し、類似度が高い第2単語を第1単語の同義語候補に決定し、ある単語から文章中で所定の語数内に出現する単語を含む第2文脈情報が格納された第2データベースを参照して、第1単語の第2文脈情報と少なくとも一以上の同義語候補の第2文脈情報とを比較することによって、文脈適合度を計算し、類似度及び文脈適合度に基づいて、同義語候補の同義語展開スコアを計算し、同義語展開スコアに基づいて、同義語候補から第1単語の同義語を決定する。
【選択図】図1
Description
本発明は、文書から抽出された各単語を、文書中での各単語の出現文脈に適した同義語に展開する技術に関する。
情報爆発時代といわれるように、ユーザがアクセス可能な電子化文書の量が膨大なものとなっている。そこで、計算機が電子化文書を処理するための技術、例えば、文書検索、文書分類などの技術に対するニーズが高まっている。これらの技術は、電子化文書中のテキストデータを構成する単語を処理の単位としている。しかし、日本語のような自然言語では、単語の同義性及び多義性によって、計算機による自動処理が難しい。
ここで、同義性とは同じ意味を表現する単語が複数存在することである。例えば、「電子計算機」と「コンピュータ」とは、ほぼ同じ意味を持つ。多義性とは同じ単語が複数の意味を持つことである。例えば、「コート」という単語は、球技などをするための場所という意味と防寒のための上着という複数の意味を持つ。このため、文書検索を行う場合、例えば、全文検索技術のような単純な文字列の検索だけでは、誤った結果が得られたり、検索漏れが発生したりするので、検索の精度は不十分なことが多い。
そこで、単語の意味を正しく取り扱うための技術が検討されている。検索システムが同義語辞書(又は類義語辞書)を備えることによって、同義語を持つ単語の検索漏れを回避し、さらに、検索クエリに多義性がある場合、ユーザが検索クエリの読みに関する情報を入力することによって、検索クエリの多義性を解消する技術が提案されている(例えば、特許文献1参照)。
また、このような同義語辞書を自動的に構築するための同義語抽出技術がある(例えば、非特許文献1参照)。非特許文献1に記載された同義語抽出技術は、単語の出現文脈同士の類似度を元の単語同士の類似度に代替させることによって同義語を抽出する技術である。具体的には、大量のテキストデータを準備し、このテキストデータ中に出現する各単語の近傍に出現する単語の頻度リストを作成し、これを出現文脈とする。そして、頻度リスト間の距離(例えば、ユークリッド距離など)を計算することによって、単語間の類似度を計算する。非特許文献1に記載された技術によって、同義語関係を抽出することが可能である。抽出された同義語関係は、直接検索に利用され、また、同義語辞書を作成する場合の素材として利用される。
また、多義性の問題を解決するため、単語の出現文脈を利用して単語の多義性を解消する技術が提案されている(例えば、非特許文献2参照)。
相澤彰子、「大規模テキストコーパスを用いた語の類似度計算に関する考察」、情報処理学会論文誌、2008年、Vol.49、No.3、pp.1426−1436.
David Yarowsky、"Unsupervised word sense disambiguation rivaling supervised methods"、33rd Annual Meeting of the ACL、1995、pp.189−196
非特許文献1に記載された同義語抽出技術には以下のような問題がある。本来、同義とは同じ意味ということであり、数学的には同値ということである。つまり、例えば、AとBとが同義であり、BとCとが同義であれば、推移律によって、AとCとが同義となるはずである。しかしながら、非特許文献1に記載された同義語抽出技術によると、抽出された同義語関係の結果は、必ずしもAとCとが同義とならない。なぜなら、同義語として抽出された各単語の示す意味の範囲はそれぞれ微妙に異なるので、完全に同じ意味の単語は、「プロセッサ」と「プロセッサー」のような表記揺れの場合を除けば、ほとんど存在しないからである。
例えば、非特許文献1に記載された技術によって、「検査」に対して、「検診」及び「点検」が同義語であるという結果が得られる。しかし、「病院での検査」から「病院での検診」への言い換え、又は、「設備の検査」から「設備の点検」への言い換えはそれぞれ成り立つが、「病院での検査」から「病院での点検」への言い換えは不適切である。つまり、同義語として示された「検査」と「点検」とは、これらが使用される文脈によっては必ずしも同義とはならない。
このように、非特許文献1に記載された同義語抽出技術によって得られる同義語辞書に基づいて、ある単語を同義語に展開し、この同義語によって文書検索を実行する場合、誤った文書が検索結果となる問題がある。
なお、前述した非特許文献2に記載された技術は、人によってあらかじめ作成された同義語辞書から、別の同義語辞書を自動作成することを目的としている。また、そのメリットは、例えば、特殊な分野の同義語辞書を低コストで作成できることである。しかし、同義語辞書を参照して得られた同義語の候補の中から、人が文脈に適した同義語を選択しなければならない。非特許文献2に記載された技術は、検索の際に同義語辞書を自動的に展開し、出現文脈に適した同義語を抽出することを考慮したものではない。
また、特許文献1には、多義性(単語の意味の曖昧性)を考慮した検索技術が記載されている。特許文献1によると、検索クエリが、例えば、「金」である場合、検索クエリの多義性を解消するために、ユーザが検索クエリの読み(例えば、「カネ」「キン」)の情報を入力する。これによって、ある程度、曖昧性を解消することができる。しかしながら、例えば、「金」が「カネ」を意味する場合であっても、さらにその「カネ」には、抽象的な財産を意味する場合、紙幣及び硬貨を意味する場合などがある。
特許文献1に記載された技術によっては、検索クエリが持つさらに詳細な意味の違いを区別することができない。また、ユーザによって検索クエリの読みの情報を入力しなければならないため、操作が煩雑である。以上に述べたように、特許文献1に記載された、同義語辞書によって検索漏れを防止する技術には、細かな意味の差異を無視している点で大きな問題がある。
本発明は、前述した問題に鑑みてなされたものであり、文書から抽出された単語を、各単語の出現文脈に適した同じ意味を示す同義語に展開する同義語展開システムを提供することを目的とする。
本発明の代表的な一例を示せば以下のとおりである。すなわち、単語の同義語を決定する同義語展開システムであって、プロセッサと、前記プロセッサに接続されるメモリと、記憶装置と、を備える少なくとも一以上の計算機を備え、前記プロセッサは、前記メモリに格納された同義語展開処理のためのプログラムを実行することによって、ある単語の係り先となる単語を含む第1文脈情報が格納された第1データベースを参照して、第1単語の前記第1文脈情報と第2単語の前記第1文脈情報とを比較することによって、前記第1単語と前記第2単語との間の意味の近さを示す類似度を計算し、前記計算された類似度が高い少なくとも一以上の前記第2単語を前記第1単語の同義語候補に決定し、前記決定された少なくとも一以上の同義語候補とその類似度とを含む第1情報を出力し、ある単語から文章中で所定の語数内に出現する単語を含む第2文脈情報が格納された第2データベースを参照して、前記第1単語の第2文脈情報と、前記出力された第1情報に含まれる少なくとも一以上の同義語候補の第2文脈情報と、を比較することによって、前記少なくとも一以上の同義語候補が出現する文脈とが一致する確率を示す文脈適合度を計算し、前記少なくとも一以上の同義語候補の類似度と、前記計算された文脈適合度とに基づいて、前記同義語候補の同義語展開スコアを計算し、前記少なくとも一以上の同義語候補とその同義語展開スコアとを含む第2情報を出力し、前記出力された第2情報に含まれる少なくとも一以上の同義語候補のうち、前記計算された同義語展開スコアの高い同義語候補を前記第1単語の同義語に決定し、前記決定された第1単語の同義語を含む第3情報を出力することを特徴とする。
本発明の一実施形態によれば、文書中の単語を同じ意味を表す同義語に展開する際に、その単語の出現文脈に沿った意味に展開することが可能となり、文書検索、文書分類などの精度を向上させることができる。
以下、本発明の実施の形態を、図面を参照して説明する。
図1は、本発明の実施の形態の同義語展開装置の構成を示すブロック図である。
本実施の形態の同義語展開装置は、CPU101、主メモリ102、入出力装置103及びディスク装置110を備える。
主メモリ102は、CPU101によって実行される、OS111及び同義語展開プログラム112を格納する。また、CPU101によって必要とされる情報、例えば、処理対象文書114を格納する。
OS111は、同義語展開装置100の全体の処理を制御する。同義語展開プログラム112は、処理対象文書114に含まれる単語を同義語に展開する。なお、同義語展開プログラム112は、同義語展開処理の他、類似度計算用文脈データベース115、適合度計算用文脈データベース116を作成する処理を実行してもよい。また、図示されない他のプログラムが、類似度計算用文脈データベース115、適合度計算用文脈データベース116を作成する処理を実行してもよい。
CPU101は、主メモリ102に格納されるプログラムを実行することによって各種処理を実行するプロセッサである。
ディスク装置110は、各種情報を格納する。具体的には、ディスク装置110は、テキストデータベース113、処理対象文書114、類似度計算用文脈データベース115(図3参照)、適合度計算用文脈データベース116(図4参照)を格納する。なお、CPU101は、ディスク装置101に格納されたOS111、同義語展開プログラム、及び他のプログラムを主メモリ102に呼び出し、主メモリ102に呼び出された各種プログラムを実行してもよい。
テキストデータベース113は、類似度計算用文脈データベース115及び適合度計算用文脈データベース116を作成するために入力された大量のテキストデータを格納するデータベースである。処理対象文書114は、同義語展開処理の対象となる文書である。処理対象文書114は、テキストデータベース113の一部であってもよいし、ネットワークを介して他の装置から取得した文書、又は他の記憶媒体に格納された文書であってもよい。
類似度計算用文脈データベース115は、テキストデータベース113のテキストデータに含まれるある単語について、その単語の近傍に出現した単語及びその頻度を文脈情報として格納したデータベースであり、後述する図12のステップS33において、類似度を計算するために用いられる。
適合度計算用文脈データベース116は、テキストデータベース113中のテキストに含まれるある単語について、その単語の近傍に出現した単語及びその頻度を文脈情報として格納したデータベースであり、後述する図12のステップS38において、適合度を計算するために用いられる。
以下、類似度計算用文脈データベース115及び適合度計算用文脈データベース116のいずれにも共通する説明をする場合、その説明において、類似度計算用文脈データベース115及び適合度計算用文脈データベース116を総称して、文脈データベースと記載する。文脈データベースの構築方法については図2から図11を用いて説明する。
入出力装置103は、例えば、ディスプレイ104、キーボード105、及びマウス106などである。なお、ディスプレイ104には、例えば、後述するユーザインターフェイス画面1600(図16参照)が表示されてもよい。
なお、本実施の形態では、同義語展開装置を単体の装置として説明したが、端末と計算機(サーバ)とを備えたシステムによって構成してもよい。この場合、端末は、処理対象文書114の入力の処理、及び、同義語展開済み形態素解析テーブル1500(図15参照)の表示等の処理を実行し、サーバは、その他の処理を実行してもよい。また、同義語展開装置は、別の計算機によってあらかじめ構築された類似度計算用文脈データベース115及び適合度計算用文脈データベース116を利用して同義語展開処理を実行してもよい。また、本実施の形態の同義語展開装置は、ネットワークインターフェイスを備え、ネットワークに接続されてもよい。
図2は、本発明の実施の形態の同義語展開装置に格納される処理対象文書114の例を示す説明図である。
図2に示した処理対象文書114の例では、「発電」「設備」「定期」「検査」などの単語が同義語展開の対象である。そして、例えば、「設備」が「装置」、「検査」が「点検」のような同義語に展開される。なお、ユーザによってテキストデータベース113から選択された処理対象文書114は、入出力装置103のディスプレイ104に表示されてもよい。
図3は、本発明の実施の形態の同義語展開装置に格納される類似度計算用文脈データベース115の例を示す説明図である。
類似度計算用文脈データベース115は、見出し語301及び文脈情報302を含む。文脈情報302は、複数の文脈単語列303と頻度304との組みを含む。
見出し語301は、テキストデータベース113に記録された電子化文書から抽出された単語である。文脈単語列303は、見出し語301の近傍に出現した単語(列)である。頻度304は、文脈単語列303が出現した回数である。例えば、行311において、見出し語「検査」の近傍に、「で引っかかる」が4回、「を義務付ける」が4回、「で明らかになる」が4回出現したことを示す。
図4は、本発明の実施の形態の同義語展開装置に格納される適合度計算用文脈データベース116の例を示す説明図である。
図4は、適合度計算用文脈データベース116は、図3に示した類似度計算用文脈データベース115の構造と同じであり、見出し語401及び文脈情報402を含む。文脈情報402は、複数の文脈単語列403と頻度404との組みを含む。例えば、行411において、見出し語「検査」の近傍に、「設備」が4回、「定期」が4回、「異常」が4回出現したことを示す。
以下に、本発明の同義語展開装置が実行する処理について説明する。同義語展開装置の処理には、文脈データベースの作成処理及び同義語展開処理がある。
文脈データベースの作成処理は、任意の単語に関する文脈情報、すなわち、近傍に出現しやすい単語の一覧を作成するための処理である。文脈データベースの作成処理には、類似度計算用文脈データベース115の作成処理、及び、適合度計算用文脈データベース116の作成処理がある。類似度計算用文脈データベース115は、同義語候補抽出処理で用いられる。適合度計算用文脈データベース116は、適合度計算処理で用いられる。なお、文脈データベースの作成処理は、同義語展開時に実行することもできるが、処理に長時間を必要とすることが多いため、あらかじめ、バッチ処理によって実行しておくことが望ましい。
同義語展開処理には、同義語候補抽出処理、適合度計算処理、及び、同義語展開スコア計算処理がある。同義語候補抽出処理は、類似度計算用文脈データベース115を用い、同義語展開対象である単語の同義語を類似度によって求める処理である。
適合度計算処理は、同義語候補抽出処理によって得られた同義語候補が、同義語展開処理の対象文書の文脈に合致している度合いを示す適合度を計算する処理である。
同義語展開スコア計算処理は、同義語候補抽出処理によって得られる、同義語候補の類似度と、適合度計算処理によって得られる、同義語候補の文脈への適合度との両方に基づいて同義語展開スコアを計算する処理である。
図5は、本発明の実施の形態の同義語展開装置によって実行される類似度計算用文脈データベース115の作成処理を示すフローチャートである。
同義語展開装置は、テキストデータベース113中のすべての文書について、ステップS11からS14の処理が実行されたか否かを判定する(S10)。ステップS10において、すべての文書について処理が実行されたと判定された場合、類似度計算用文脈データベース115の作成処理を終了する。一方、ステップS10において、未処理の文書があると判定された場合、ステップS11に進む。
まず、同義語展開装置は、テキストデータベース113から文書を取り出し、取り出された文書に対して形態素解析を実行し、文書を形態素(単語)に分割する(S11)。
形態素解析については、例えば、「北研二、「言語と計算4 確率的言語モデル」、東京大学出版会」に記載されている。形態素解析では、文書の先頭から任意の文字列を取り出して辞書と照合し、文字列が辞書に存在すれば当該文字列が単語であるものとして文字列の直後で文書を分割する処理が繰り返し実行される。また、単語への分割に曖昧性がある場合、例えば、最も長い文字列を優先する最長一致というヒューリスティックスを用いて、確からしい分割を求めることができる。
図6は、本発明の実施の形態の同義語展開装置に一時的に作成される形態素解析テーブル600の例を示す説明図である。
一般的に、形態素解析の結果は、処理対象文書を形態素に分割することによって得られた単語とその単語の品詞とを含むリスト(形態素解析テーブル)として示される。本実施の形態の形態素解析テーブル600は、単語601及び品詞602を含む。本実施の形態では、形態素解析テーブル600は、一時データであり、主メモリ102に格納される。なお、形態素解析テーブル600は、入出力装置103のディスプレイ104に表示されてもよい。
図5のステップS12の説明に戻る。同義語展開装置は、ステップS11によって作成された形態素解析テーブル600に対して、係り受け解析を実行する(S12)。
係り受け解析については、例えば、「藤尾正和、松本裕治、「統計的手法を用いた係り受け解析」、自然言語処理研究会、1997年、NL117−12、p.83−90」に記載されている。係り受け解析は、単語間の関係を解析する処理である。日本語の係り受け解析では、通常、名詞、動詞などの内容語が対象となる。具体的には、助詞、助動詞などの機能語は、接続している内容語の属性として扱われる。係り受け解析では、内容語又は内容語に接続している助詞の種類に基づいて、連用修飾(用言を修飾する)、又は、連体修飾(体言を修飾する)のいずれかであるかを判定し、係り先を決定する。
例えば、「開発を」の場合、「を」は連用修飾となる助詞であり、「開発を」は用言を修飾する。「開発の」のような場合には、「の」は連体修飾となる助詞であり、「開発の」は体言を修飾する。これによって、形態素解析テーブル600の内容語の係り先が制約される。形態素解析中のすべての内容語について、このような制約を矛盾なく満たす係り先を決定することによって、係り受け解析が実現される。
図7は、本発明の実施の形態の同義語展開装置に一時的に作成される係り受け解析結果の例を示す説明図である。
図7は、「病気が検査で疑われる。」という文に対して係り受け解析を実行した結果を示す。「病気」と「検査」とがそれぞれ「疑われる」に係り、助詞である「が」と「で」とがそれぞれの係り受け関係の種別を表すラベルとして付与されている。
図8は、本発明の実施の形態の同義語展開装置に一時的に作成される係り受け関係テーブル800の例を示す説明図である。
係り受け関係テーブル800は、係り元単語801、係り先単語802及びラベル803を含む。係り元単語801は、係り受け解析によって得られた係り受け関係のうちの係り元単語である。係り先単語802は、係り受け解析によって得られた係り受け関係のうちの係り先単語である。ラベル803は、係り元単語801と係り先単語802とによって示される係り受け関係の種別を示すラベル(助詞)である。本実施の形態では、係り受け関係テーブル800は一時データであり、主メモリ102に格納される。
図5のステップS13の説明に戻る。
同義語展開装置は、図8に示した係り受け関係テーブル800中のすべての行が処理されたか否かを判定する(S13)。ステップS13において、すべての行が処理されたと判定された場合、ステップS10に戻る。一方、ステップS13において、未処理の行があると判定された場合、ステップS14に進む。
まず、同義語展開装置は、係り受け関係テーブル800(図8)のi番目の行に基づいて、類似度計算用文脈データベース115を更新する(S14)。具体的には、同義語展開装置は、係り受け関係テーブル800からi番目の行の係り元単語801を取得する。次に、係り受け関係テーブル800のi番目の行から、係り先単語802とラベル803とを取得し、係り先単語802とラベル803とが連結された文字列を「係り先単語列」として作成する。例えば、係り先単語802が「疑われる」であり、ラベル803が「が」である場合、「係り先単語列」は「が疑われる」となる。
次に、同義語展開装置は、類似度計算用文脈データベース115から、取得した「係り元単語」と一致する見出し語を含む行を検索する。ここで、取得した「係り元単語」と一致する見出し語を含む行がない場合、同義語展開装置は、類似度計算用文脈データベース115に、「係り元単語」に該当する見出し語を含む新たな行を追加する。そして、追加された新たな行の文脈単語列303に、「係り先単語列」を記録し、さらに、追加された新たな行の頻度304に、「1」を記録する。
一方、取得した「係り元単語」と一致する見出し語を含む行(例えば、I番目の行)がある場合、同義語展開装置は、類似度計算用文脈データベース115のI番目の行に、「係り先単語列」と一致する文脈単語列303があるか否かを検索する。「係り先単語列」と一致する文脈単語列303がない場合、空欄となっている文脈単語列303に「係り先単語列」を記録し、頻度304に「1」を記録する。一方、「係り先単語列」と一致する文脈単語列303がある場合、当該文脈単語列303の頻度304に「1」を加算して、頻度を更新する。
例えば、係り受け関係テーブル800の1番目の行804の係り元単語801は「病気」であり、係り先単語802は「疑われる」であり、ラベル803は「が」である。また、係り先単語列は「が疑われる」である。このため、同義語展開装置は、類似度計算用文脈データベース115から係り元単語「病気」と一致する見出し語を含む行を検索する。類似度計算用文脈データベース115には、係り元単語「病気」と一致する見出し語301を含む行312がある。そして、行312には、係り先単語列「が疑われる」に該当する文脈単語列303があるので、当該文脈単語列303の頻度304に「1」を加算する。
係り受け関係テーブル800の2番目の行805についても同様に処理する。類似度計算用文脈データベース115には、係り元単語「検査」と一致する見出し語301を含む行311があるが、係り先単語列「が疑われる」に該当する文脈単語列303がないので、空欄となっている文脈単語列303に係り先単語列「が疑われる」を記録し、頻度304に「1」を記録する(図示省略)。
なお、本実施の形態では、係り受け関係のラベルである「が」「で」等の助詞を含む「係り先単語列」を類似度計算用文脈データベース115の文脈単語列303に記録したが、ラベルを除いた「係り先単語」のみを文脈単語列303に記録してもよい。この場合、同義語展開処理の精度は若干低下するが、助詞が文脈単語列に含まれないので、必要な記憶容量を減らすことができる。
また、同様に、係り先単語の助動詞を除き、内容語(名詞、動詞などの単独で意味を持つ単語)のみを係り先単語としてもよい。この場合、例えば、係り受け関係テーブル800の行805の係り元単語「検査」及び係り先単語「疑われる」については、係り元単語「検査」が「類似度計算用文脈データベース115の見出し語301に記録され、係り先単語「疑う」が文脈単語列303に記録される。
図9は、本発明の実施の形態の同義語展開装置によって実行される適合度計算用文脈データベース116の作成処理を示すフローチャートである。
ステップS20からS21の処理は、図5のステップS10からS11の処理と同じである。
同義語展開装置は、ウインドウ共起を抽出する(S22)。
図10は、本発明の実施の形態の同義語展開装置によって実行されるウインドウ共起抽出処理の説明図である。
処理対象文書114から得られた形態素解析テーブル600から、内容語(すなわち、名詞、動詞)のみを抽出すると、「発電、設備、定期、検査、異常、発見、事故・・・」という内容語列が得られる。この場合、同義語展開装置は、内容語列のi番目の単語に注目し、注目したi番目の単語(注目語)と注目語から距離J以内にある単語との共起を考える。
例えば、i番目の注目語が「検査」である場合、距離Jを「2」とすると、同義語展開装置は、「検査」と「設備」、「検査」と「定期」、「検査」と「異常」、「検査」と「発見」という4個の共起を得る。このような共起をウインドウ共起という。
このウインドウ共起を、注目する単語毎にウインドウをずらしながら繰り返すことによって、形態素解析テーブル600から得られた内容語列において、i番目の注目語と、注目語の前後の距離J以内にある単語との共起を抽出することができる。なお、距離Jは、どの程度離れた単語までを注目語と共起しているとみなすかを示すパラメタである。ウインドウの幅は「2*J+1」で示される。図10に示した例では、距離Jが「2」であるので、ウインドウの幅は「5」である。抽出されたウインドウ共起は、以下に説明する図11のウインドウ共起テーブル1100に記録される。
図11は、本発明の実施の形態の同義語展開装置に一時的に作成されるウインドウ共起テーブル1100の説明図である。
ウインドウ共起テーブル1100は、見出し語1101及び共起語1102を含む。見出し語1101は、図10のウインドウにおいて着目されたi番目の注目語である。共起語1102は、注目語の前後の距離J以内にある共起語である。本実施の形態では、ウインドウ共起テーブル1100は一時データであり、主メモリ102に格納される。
図9のステップS23の説明に戻る。
同義語展開装置は、図11に示したウインドウ共起テーブル1100中のすべての行が処理されたか否かを判定する(S23)。ステップS23において、すべての行が処理済みであると判定された場合、ステップS20に進む。一方、ステップS23において、未処理の行があると判定された場合、ステップS24に進む。
同義語展開装置は、ウインドウ共起テーブル1100のi番目の行に基づいて、適合度計算用文脈データベース116を更新する(S24)。具体的には、同義語展開装置は、まず、適合度計算用文脈データベース116から、ウインドウ共起テーブル1100のi番目の行の見出し語1101と一致する見出し語401を含む行を検索する。見出し語1101と一致する見出し語401を含む行がない場合、見出し語1101に該当する見出し語401の含む行を新たに追加し、新たに追加された行の文脈単語列403に共起語1102を記録し、頻度404に「1」を記録する。
見出し語1101と一致する見出し語401がある場合であって、ウインドウ共起テーブル1100のi番目の行の共起語1102に該当する文脈単語列403がない場合、空欄となっている文脈単語列403に共起語1102を記録し、頻度404に「1」を記録する。
見出し語1101と一致する見出し語401がある場合であって、共起語1102に該当する文脈単語列403が既にある場合、該当する文脈単語列403の頻度404に「1」を加算して頻度のみを更新する。
図12は、本発明の実施の形態の同義語展開装置によって実行される同義語展開処理のフローチャートである。
同義語展開装置の同義語展開プログラム112は、処理対象文書114を形態素解析し、単語に分割する(S30)。次に、処理対象文書114中のすべての単語を処理したか否かを判定する(S31)。ステップS31において、すべての単語が処理済みであると判定された場合、同義語展開処理を終了する。一方、ステップS31において、未処理の単語があると判定された場合、ステップS13に進む。
次に、図6に示した形態素解析テーブル600から、i番目の行の単語601を注目語として取得する(S32)。
次に、取得した注目語の同義語候補テーブル1300を作成する(S33)。具体的には、まず、同義語展開プログラム112は、類似度計算用文脈データベース115から、取得した注目語と一致する見出し語301を検索し、一致する見出し語301の文脈情報302を取得する。次に、一致する見出し語301の文脈情報302と他のすべての各行の文脈情報302との間の類似度を計算し、類似度が高い順に行をソートして、注目語との類似度が高い単語(同義語候補)とその単語(同義語候補)の類似度との組を出力する。
図13は、本発明の実施の形態の同義語展開装置に一時的に作成される同義語候補テーブル1300の例を示す説明図である。
同義語候補テーブル1300は、同義語候補1301及び類似度1302を含む。同義語候補1301は、注目語の同義語候補である。類似度1302は、注目語と同義語候補との間の類似度である。同義語候補テーブル1300は、少なくとも1個以上の同義語候補を含む。図13に示した例は、注目語が「検査」である場合の同義語候補テーブルである。
ここで、類似度の計算は、例えば、以下のように実行される。
類似度の計算方法には、各種の方法が存在するが、基本的な考え方は、文脈情報の共通部分が大きいほど類似しているとみなすという考え方である。また、ありふれた、一般によく使われる単語ほど、類似度に対する寄与を小さいと考え、稀な、あまり使われない単語が共通している場合には類似度に対する寄与を大きくすることが一般的である。
本実施の形態では、非特許文献1に記載されている類似度の計算方法を使用することができるが、この方法に限定するものではない。また、このステップS33の処理は大きな計算量を必要とするので、これを高速に実行するため、類似文書検索技術、又は、連想検索技術などの手法を利用してもよい。
ここで、連想検索技術とは、各文書に含まれる特徴的な単語を選出し、それらの出現頻度、単語同士の関連性などに基づいて、内容が類似する文書を検索する技術である。このような技術は、例えば、「北研二、津田和彦、獅々堀正幹、「情報検索アルゴリズム」、共立出版、2002年」などに記載されている。本実施の形態では、このような検索技術を用いることによって、ステップS33の処理を高速化することが望ましい。
ここで、図12のステップS34の説明に戻る。同義語展開プログラム112は、形態素解析テーブル600から、注目語の文脈情報を取得し、取得した文脈情報を注目語文脈情報とする(S34)。ステップS34は、ステップS22のウインドウ共起抽出と同じ考え方によって実行される。
すなわち、形態素解析テーブル600中の内容語(名詞、動詞)のみを対象とし、注目語からあらかじめ定められた距離J内(例えば、2語以内)に存在する単語を注目語文脈情報として取得する。例えば、処理対象文書114の形態素解析テーブル600のうち、内容語は、「発電、設備、定期、検査、異常、発見、・・・」である。注目語を「検査」とすると、注目語「検査」の前後の距離J「2語」以内にある「設備」「定期」「異常」「発見」の4個の単語が注目語文脈情報として取得される。
次に、同義語展開プログラム112は、すべての同義語候補についてステップS36からS39の処理を実行したか否かを判定する(S35)。ステップS35において、すべての同義語候補が処理済みであると判定された場合、ステップS40に進む。一方、ステップS35において、未処理の同義語候補があると判定された場合、ステップS36に進む。
まず、同義語展開プログラム112は、ステップS33において作成された同義語候補テーブル1300(図13参照)のうちのj番目の同義語候補を取得する(S36)。
次に、同義語展開プログラム112は、適合度計算用文脈データベース116から、j番目の同義語候補と一致する見出し語401の文脈情報402を同義語候補文脈情報として取得する(S37)。
次に、同義語展開プログラム112は、注目語文脈単語と同義語候補文脈情報とから、文脈適合度を計算する(S38)。文脈適合度の計算は、以下のように実行される。ステップS34において取得した注目語文脈情報と、ステップS37において取得した同義語候補文脈情報とを比較し、一致する単語がある場合、その単語についてスコア(例えば、自己相互情報量)を計算し、計算されたスコア(自己相互情報量)を同義語候補の文脈適合度とする。一致する単語が2個以上ある場合、自己相互情報量の大きい方を文脈適合度としてもよい。
ここで、自己相互情報量とは、二つの事象が同時に生起する確率を、それぞれの事象が単独で生起する確率で割った値の対数である。自己相互情報量については、例えば、「韓他、「情報と符号化の数理」、培風館、1999年、p.42」に記載されているように、広く知られたものであるので、詳細な説明は省略する。
次に、同義語展開プログラム112は、類似度及び文脈適合度に基づいて、同義語展開スコアを計算する(S39)。この場合、例えば、計算された各類似度と各文脈適合度とを単純に乗じてもよいし、類似度が大きい順にソートされた同義語候補のうち、あらかじめ定められた上位N個の同義語候補の中から、文脈適合度が最も高い順に大きいスコアが付与されるようにしてもよい。また、類似度に付与されたスコア及び文脈適合度に付与されたスコアに基づいて、同義語展開スコアを計算してもよい。
図14は、本発明の実施の形態の同義語展開装置に一時的に作成される同義語展開テーブル1400の例を示す説明図である。
同義語展開テーブル1400は、同義語展開スコア順にソートされた同義語候補の一覧を記録するテーブルであり、同義語候補1401及び同義語展開スコア1402を含む。
ここで、図12のステップS40の説明に戻る。同義語展開プログラム112は、同義語展開を実行する(S40)。具体的には、あらかじめ定められた個数(例えば、3個以上)の同義語候補を、同義語展開スコアが大きい順に選択することによって、選択された同義語候補を注目語の同義語に決定する同義語展開を実行する。なお、あらかじめ定められた個数に基づく他にも、あらかじめ定められた閾値以上の同義語展開スコアを持つ同義語候補を選択することによって、同義語展開を実行してもよい。
例えば、図14に示した例では、同義語展開プログラム112は、同義語展開によって、同義語展開スコアが大きい順に、同義語候補「点検」「調査」「査察」の3個を、注目語「検査」の同義語として選択した。これによって、同義語展開済み形態素解析テーブル1500が得られる。
図15は、本発明の実施の形態の同義語展開装置に一時的に作成される同義語展開済み形態素解析テーブル1500の例を示す説明図である。
同義語展開済み形態素解析テーブル1500は、単語1501、品詞1502及び同義語1503を含む。単語1501、品詞1502は、各々、形態素解析テーブル600の単語601、品詞602と同じである。同義語1503は、ステップS40において決定された同義語である。
同義語展開装置は、必要に応じて、同義語展開済み形態素解析テーブル1500をディスク装置などに出力してもよいし、主メモリ102において、さらに、特徴語抽出処理などを実行してもよい。また、同義語展開済み形態素解析テーブル1500は、入出力装置103のディスプレイ104に表示されてもよい。
図16は、本発明の実施の形態の同義語展開装置のディスプレイに表示されるユーザインターフェイス画面の例を示す説明図である。
ユーザインターフェイス画面1600は、ユーザの各種操作のためにディスプレイ104に表示される画面であり、例えば、処理対象文書一覧1601、文書選択ボタン1602、処理対象文書1603、形態素解析開始ボタン1604、形態素解析結果1605、同義語展開開始ボタン1606、及び同義語展開結果1607を含む。
処理対象文書一覧1601には、テキストデータベース113に格納された文書のタイトルなどが表示される。文書選択ボタン1602は、ユーザが処理対象文書一覧1601に表示された文書を選択するためのボタンである。処理対象文書1603には、ユーザによって選択された文書の内容(例えば、図2の処理対象文書114)が表示される。
なお、処理対象文書一覧1601には、ユーザから検索クエリが入力されてもよい。この場合、処理対象文書1603には、テキストデータベース113に格納された文書のうち、ユーザによって入力された検索クエリを含む文書が表示される。
さらに、テキストデータベース113から処理対象文書114を選択しない場合、処理対象文書1603には、例えば、ネットワークを介して取得された文書がユーザによって直接入力されてもよい。また、例えば、少なくとも二以上の単語を含む「検査&病院」のような検索式がユーザによって直接入力されてもよい。
形態素解析開始ボタン1604は、処理対象文書1603に表示された文書、又は、表示された文書のうちユーザによって選択された部分を形態素に分割する処理を開始するためのボタンである。なお、ユーザによって選択された部分は、例えば、ドット領域で示されてもよい。
形態素解析結果1605には、処理対象文書1603に表示された文書(例えば、図2の図2の処理対象文書114)を形態素に分割した結果(図6の形態素解析テーブル600)が表示される。同義語展開開始ボタン1606は、形態素解析結果1605に表示された単語、又は、表示された単語のうちユーザによって選択された単語を同義語に展開する処理を開始するためのボタンである。なお、ユーザによって選択された単語のエントリは、例えば、ドット領域で示されてもよい。
同義語展開結果1607には、形態素解析結果1605に表示された単語、又はユーザによって選択された単語を同義語に展開した結果(図15の同義語展開済み形態素解析テーブル1500)が表示される
図17は、本発明の実施の形態の同義語展開装置の各装置間の入出力の関係を示す説明図である。
図17は、本発明の実施の形態の同義語展開装置の各装置間の入出力の関係を示す説明図である。
なお、以下では、プログラムが処理を実行すると説明するが、実際は、CPU101が主メモリ102に格納された同義語展開プログラム112に基づいて、各種処理を実行する。
まず、同義語展開装置の同義語展開プログラム112は、入出力装置103のディスプレイ104のユーザインターフェイス画面1600の処理対象文書一覧1601に、例えば、テキストデータベース113に格納された文書のタイトルを表示する。そして、ユーザによって文書選択ボタン1602が操作されると、同義語展開プログラム112は、テキストデータベース113から選択された文書(例えば、図2に示した処理対象文書114)を取得し(S51)、取得した処理対象文書114をユーザインターフェイス画面1600の処理対象文書1603に表示する(S52)。
次に、ユーザによって形態素解析開始ボタン1604が操作されると、同義語展開プログラム112は、処理対象文書114に対して形態素解析処理を実行し、例えば、図6に示した形態素解析テーブル600を作成し(S53)、作成された形態素解析テーブル600をユーザインターフェイス画面1600の形態素解析結果1605に表示する(S54)。なお、ステップS53は、図12に示したステップS30に対応する。
次に、ユーザによって同義語展開開始ボタン1606が操作されると、同義語展開プログラム112は、同義語展開処理を実行する。具体的には、同義語展開プログラム112は、まず、類似度計算用文脈データベース115を参照し、作成された形態素解析テーブル600に含まれる単語の同義語候補を類似度に基づいて取得し、例えば、図13に示した同義語候補テーブル1300を作成する。また、作成された形態素解析テーブル600に基づいて、例えば、図11に示したウインドウ共起テーブル1100を作成する(S55)。なお、ステップS55は、図12に示したステップS31からS34に対応する。
次に、同義語展開プログラム112は、適合度計算用文脈データベース116を参照して、取得した同義語候補の文脈適合度及び同義語展開スコアを計算し、例えば、図14に示した同義語展開テーブル1400を作成する(S56)。なお、ステップS56は、図12に示したステップS35からS39に対応する。
最後に、同義語展開プログラム112は、計算された同義語展開スコアに基づいて、同義語候補から同義語を決定し、例えば、図15に示した同義語展開済み形態素解析テーブル1500をユーザインターフェイス画面1600の同義語展開結果1607に表示する(S57)。なお、ステップS57は、図12に示したステップS40に対応する。
以上説明したように、本実施の形態によれば、文書中の単語を出現文脈に沿って同義語展開するので、単語に基づいて実行される文書検索、文書分類などの言語処理の精度を向上させることができる。なお、本実施の形態では、文書中の単語を同義語展開したが、文書検索に適用する際には検索クエリの同義語展開に適用することも可能である。
また、検索クエリが2個以上の単語を含む場合、検索クエリをそれらの単語からなる文書であると考えれば、同様の処理を実行することができる。例えば、「検査&病院」のような検索式が入力された場合、「検査」が「検診」「診断」に展開され、また、「検査&設備」のような検索式が入力された場合、「検査」が「点検」「査察」に展開された後、検索を実行することも可能である。
100 同義語展開装置
101 CPU
102 主メモリ
103 入出力装置
110 ディスク装置
111 OS
112 同義語展開プログラム
113 テキストデータベース
114 処理対象文書
115 類似度計算用文脈データベース
116 適合度計算用文脈データベース
101 CPU
102 主メモリ
103 入出力装置
110 ディスク装置
111 OS
112 同義語展開プログラム
113 テキストデータベース
114 処理対象文書
115 類似度計算用文脈データベース
116 適合度計算用文脈データベース
Claims (12)
- 単語の同義語を決定する同義語展開システムであって、
プロセッサと、前記プロセッサに接続されるメモリと、記憶装置と、を備える少なくとも一以上の計算機を備え、
前記プロセッサは、前記メモリに格納された同義語展開処理のためのプログラムを実行することによって、
ある単語の係り先となる単語を含む第1文脈情報が格納された第1データベースを参照して、第1単語の前記第1文脈情報と第2単語の前記第1文脈情報とを比較することによって、前記第1単語と前記第2単語との間の意味の近さを示す類似度を計算し、
前記計算された類似度が高い少なくとも一以上の前記第2単語を前記第1単語の同義語候補に決定し、
前記決定された少なくとも一以上の同義語候補とその類似度とを含む第1情報を出力し、
ある単語から文章中で所定の語数内に出現する単語を含む第2文脈情報が格納された第2データベースを参照して、前記第1単語の第2文脈情報と、前記出力された第1情報に含まれる少なくとも一以上の同義語候補の第2文脈情報と、を比較することによって、前記少なくとも一以上の同義語候補が出現する文脈とが一致する確率を示す文脈適合度を計算し、
前記少なくとも一以上の同義語候補の類似度と、前記計算された文脈適合度とに基づいて、前記同義語候補の同義語展開スコアを計算し、
前記少なくとも一以上の同義語候補とその同義語展開スコアとを含む第2情報を出力し、
前記出力された第2情報に含まれる少なくとも一以上の同義語候補のうち、前記計算された同義語展開スコアの高い同義語候補を前記第1単語の同義語に決定し、
前記決定された第1単語の同義語を含む第3情報を出力することを特徴とする同義語展開システム。 - 前記プロセッサは、
形態素解析に基づいて、入力された文書から単語を抽出し、
前記抽出された単語とその品詞とを含む第4情報を出力し、
係り受けの関係に基づいて、前記出力された第4情報に含まれる単語の係り先となる動詞及びその動詞の格要素である名詞を決定し、
前記決定された動詞及び名詞を前記単語の前記第1文脈情報に設定し、
前記設定された第1文脈情報を、前記第1データベースに格納することを特徴とする請求項1に記載の同義語展開システム。 - 前記プロセッサは、
形態素解析に基づいて、入力された文書から単語を抽出し、
前記抽出された単語とその品詞とを含む第4情報を出力し、
前記出力された第4情報に含まれる単語のうち、その品詞が名詞である単語を取得し、
前記取得した名詞である単語を含む第5情報を出力し、
前記出力された第5情報に含まれる単語から所定の語数内にある単語を、前記単語の前記第2文脈情報に設定し、
前記設定された第2文脈情報を、前記第2データベースに格納することを特徴とする請求項1に記載の同義語展開システム。 - 前記プロセッサは、
前記出力された第1情報に含まれる少なくとも一以上の同義語候補から一の同義語候補を選択し、
前記第2データベースから、前記選択された一の同義語候補に対応する第2文脈情報を取得することを特徴とする請求項1に記載の同義語展開システム。 - 前記プロセッサは、前記出力された第1情報に含まれる少なくとも一以上の同義語候補の類似度と前記計算された文脈適合度とを乗算することによって、前記同義語候補の同義語展開スコアを計算することを特徴とする請求項1に記載の同義語展開システム。
- 前記プロセッサは、前記出力された第1情報に含まれる少なくとも一以上の同義語候補の類似度の順位に基づいて付与されたスコアと、前記同義語候補の文脈適合度の順位に基づいて付与されたスコアと、に基づいて、前記同義語候補の同義語展開スコアを計算することを特徴とする請求項1に記載の同義語展開システム。
- 単語の同義語を決定する同義語展開システムにおいて実行される同義語展開方法であって、
前記同義語展開システムは、プロセッサと、前記プロセッサに接続されるメモリと、記憶装置と、を備える少なくとも一以上の計算機を備え、
前記同義語展開方法は、前記プロセッサが、前記メモリに格納された同義語展開処理のためのプログラムを実行することによって、
ある単語の係り先となる単語を含む第1文脈情報が格納された第1データベースを参照して、第1単語の前記第1文脈情報と第2単語の前記第1文脈情報とを比較することによって、前記第1単語と前記第2単語との間の意味の近さを示す類似度を計算し、
前記計算された類似度が高い少なくとも一以上の前記第2単語を前記第1単語の同義語候補に決定し、
前記決定された少なくとも一以上の同義語候補とその類似度とを含む第1情報を出力し、
ある単語から文章中で所定の語数内に出現する単語を含む第2文脈情報が格納された第2データベースを参照して、前記第1単語の第2文脈情報と、前記出力された第1情報に含まれる少なくとも一以上の同義語候補の第2文脈情報と、を比較することによって、前記少なくとも一以上の同義語候補が出現する文脈とが一致する確率を示す文脈適合度を計算し、
前記少なくとも一以上の同義語候補の類似度と、前記計算された文脈適合度とに基づいて、前記同義語候補の同義語展開スコアを計算し、
前記少なくとも一以上の同義語候補とその同義語展開スコアとを含む第2情報を出力し、
前記出力された第2情報に含まれる少なくとも一以上の同義語候補のうち、前記計算された同義語展開スコアの高い同義語候補を前記第1単語の同義語に決定し、
前記決定された第1単語の同義語を含む第3情報を出力することを特徴とする同義語展開方法。 - 前記プロセッサが、
形態素解析に基づいて、入力された文書から単語を抽出し、
前記抽出された単語とその品詞とを含む第4情報を出力し、
係り受けの関係に基づいて、前記出力された第4情報に含まれる単語の係り先となる動詞及びその動詞の格要素である名詞を決定し、
前記決定された動詞及び名詞を前記単語の前記第1文脈情報に設定し、
前記設定された第1文脈情報を、前記第1データベースに格納することを特徴とする請求項7に記載の同義語展開方法。 - 前記プロセッサが、
形態素解析に基づいて、入力された文書から単語を抽出し、
前記抽出された単語とその品詞とを含む第4情報を出力し、
前記出力された第4情報に含まれる単語のうち、その品詞が名詞である単語を取得し、
前記取得した名詞である単語を含む第5情報を出力し、
前記出力された第5情報に含まれる単語から所定の語数内にある単語を、前記単語の前記第2文脈情報に設定し、
前記設定された第2文脈情報を、前記第2データベースに格納することを特徴とする請求項7に記載の同義語展開方法。 - 前記プロセッサが、
前記出力された第1情報に含まれる少なくとも一以上の同義語候補から一の同義語候補を選択し、
前記第2データベースから、前記選択された一の同義語候補に対応する第2文脈情報を取得することを特徴とする請求項7に記載の同義語展開方法。 - 前記プロセッサが、前記出力された第1情報に含まれる少なくとも一以上の同義語候補の類似度と前記計算された文脈適合度とを乗算することによって、前記同義語候補の同義語展開スコアを計算することを特徴とする請求項7に記載の同義語展開方法。
- 前記プロセッサが、前記プロセッサは、前記出力された第1情報に含まれる少なくとも一以上の同義語候補の類似度の順位に基づいて付与されたスコアと、前記同義語候補の文脈適合度の順位に基づいて付与されたスコアと、に基づいて、前記同義語候補の同義語展開スコアを計算することを特徴とする請求項7に記載の同義語展開方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009139955A JP2010287020A (ja) | 2009-06-11 | 2009-06-11 | 同義語展開システム及び同義語展開方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009139955A JP2010287020A (ja) | 2009-06-11 | 2009-06-11 | 同義語展開システム及び同義語展開方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010287020A true JP2010287020A (ja) | 2010-12-24 |
Family
ID=43542673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009139955A Pending JP2010287020A (ja) | 2009-06-11 | 2009-06-11 | 同義語展開システム及び同義語展開方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010287020A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013239132A (ja) * | 2012-05-17 | 2013-11-28 | Nippon Hoso Kyokai <Nhk> | 類似度算出装置、類似番組検索装置、およびそのプログラム |
JP2014044289A (ja) * | 2012-08-27 | 2014-03-13 | Animo:Kk | テキスト整形プログラム、方法及び装置 |
JP2015118498A (ja) * | 2013-12-18 | 2015-06-25 | Kddi株式会社 | 同一意図の類似文を作成するプログラム、装置及び方法 |
JP6026036B1 (ja) * | 2016-04-08 | 2016-11-16 | 株式会社Ubic | データ分析システム、その制御方法、プログラム、及び、記録媒体 |
JP2017004260A (ja) * | 2015-06-10 | 2017-01-05 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP2020154668A (ja) * | 2019-03-20 | 2020-09-24 | 株式会社Screenホールディングス | 同義語判定方法、同義語判定プログラム、および、同義語判定装置 |
JP2020201621A (ja) * | 2019-06-07 | 2020-12-17 | 株式会社日立製作所 | 情報処理装置および情報処理方法 |
JP2021064252A (ja) * | 2019-10-16 | 2021-04-22 | 富士通株式会社 | 文書処理プログラム、文書処理方法および文書処理装置 |
WO2022049664A1 (ja) * | 2020-09-02 | 2022-03-10 | 三菱電機株式会社 | 情報処理装置、生成方法、及び生成プログラム |
-
2009
- 2009-06-11 JP JP2009139955A patent/JP2010287020A/ja active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013239132A (ja) * | 2012-05-17 | 2013-11-28 | Nippon Hoso Kyokai <Nhk> | 類似度算出装置、類似番組検索装置、およびそのプログラム |
JP2014044289A (ja) * | 2012-08-27 | 2014-03-13 | Animo:Kk | テキスト整形プログラム、方法及び装置 |
JP2015118498A (ja) * | 2013-12-18 | 2015-06-25 | Kddi株式会社 | 同一意図の類似文を作成するプログラム、装置及び方法 |
JP2017004260A (ja) * | 2015-06-10 | 2017-01-05 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP6026036B1 (ja) * | 2016-04-08 | 2016-11-16 | 株式会社Ubic | データ分析システム、その制御方法、プログラム、及び、記録媒体 |
JP2017188025A (ja) * | 2016-04-08 | 2017-10-12 | 株式会社Ubic | データ分析システム、その制御方法、プログラム、及び、記録媒体 |
JP2020154668A (ja) * | 2019-03-20 | 2020-09-24 | 株式会社Screenホールディングス | 同義語判定方法、同義語判定プログラム、および、同義語判定装置 |
WO2020188883A1 (ja) * | 2019-03-20 | 2020-09-24 | 株式会社Screenホールディングス | 同義語判定方法、同義語判定プログラムを記録したコンピュータ読み取り可能な記録媒体、および、同義語判定装置 |
JP7323308B2 (ja) | 2019-03-20 | 2023-08-08 | 株式会社Screenホールディングス | 同義語判定方法、同義語判定プログラム、および、同義語判定装置 |
JP2020201621A (ja) * | 2019-06-07 | 2020-12-17 | 株式会社日立製作所 | 情報処理装置および情報処理方法 |
JP7211901B2 (ja) | 2019-06-07 | 2023-01-24 | 株式会社日立製作所 | 情報処理装置および情報処理方法 |
JP2021064252A (ja) * | 2019-10-16 | 2021-04-22 | 富士通株式会社 | 文書処理プログラム、文書処理方法および文書処理装置 |
JP7295429B2 (ja) | 2019-10-16 | 2023-06-21 | 富士通株式会社 | 文書処理プログラム、文書処理方法および文書処理装置 |
WO2022049664A1 (ja) * | 2020-09-02 | 2022-03-10 | 三菱電機株式会社 | 情報処理装置、生成方法、及び生成プログラム |
JPWO2022049664A1 (ja) * | 2020-09-02 | 2022-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Singh et al. | A systematic review of text stemming techniques | |
Singh et al. | Text stemming: Approaches, applications, and challenges | |
JP2010287020A (ja) | 同義語展開システム及び同義語展開方法 | |
US20130110839A1 (en) | Constructing an analysis of a document | |
US20100153396A1 (en) | Name indexing for name matching systems | |
JP5216063B2 (ja) | 未登録語のカテゴリを決定する方法と装置 | |
US8386238B2 (en) | Systems and methods for evaluating a sequence of characters | |
Balakrishnan et al. | Improving document relevancy using integrated language modeling techniques | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
Gupta et al. | Designing and development of stemmer of Dogri using unsupervised learning | |
JP4969209B2 (ja) | 検索システム | |
JP2006178599A (ja) | 文書検索装置および方法 | |
JP2001184358A (ja) | カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体 | |
KR20220041337A (ko) | 유사어로 검색어 갱신 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법 | |
JP5145288B2 (ja) | 類義語辞書構築装置及び方法、コンピュータプログラム | |
Mallat et al. | Proposal of statistical method of semantic indexing for multilingual documents | |
JP2010009237A (ja) | 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP3848014B2 (ja) | 文書検索方法および文書検索装置 | |
Dave et al. | A Systematic Review of Stemmers of Indian and Non-Indian Vernacular Languages | |
Al-Khatib et al. | Tashaphyne0. 4: a new arabic light stemmer based on rhyzome modeling approach | |
JP7428035B2 (ja) | データ検索装置、データ検索方法およびプログラム | |
JP2004133510A (ja) | 技術文献検索システム | |
JP2002117043A (ja) | 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体 | |
JP5998779B2 (ja) | 検索装置、検索方法、及びプログラム | |
JP2008203997A (ja) | 文書検索装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120309 |