JP4055638B2 - 文書処理装置 - Google Patents
文書処理装置 Download PDFInfo
- Publication number
- JP4055638B2 JP4055638B2 JP2003120899A JP2003120899A JP4055638B2 JP 4055638 B2 JP4055638 B2 JP 4055638B2 JP 2003120899 A JP2003120899 A JP 2003120899A JP 2003120899 A JP2003120899 A JP 2003120899A JP 4055638 B2 JP4055638 B2 JP 4055638B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- similarity
- words
- occurrence
- program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
【発明の属する技術分野】
この発明は文書処理装置に関し、特に2つの単語間の類似度を計算する単語間類似度計算プログラムを有する装置に関する。
【0002】
【従来の技術】
従来、単語間の類似度を計算する手法として、単語の特徴を、その単語と共起する単語の頻度を要素とする共起ベクトルで定義し、類似度を計算しようとする2つの単語の類似度を、共起ベクトルの類似性に基づき計算する技術がある(例えば、特許文献1参照)。
【特許文献1】
特開2000−137718号公報
【発明が解決しようとする課題】
上記従来のプログラムは、単語の頻度を要素とする共起ベクトルの類似性に基づき単語間の類似度を計算するため、共起ベクトルを構成する単語の語彙数が多いと、共起ベクトルを構成する単語の語彙数である共起ベクトルの次元数が大きくなり、上記共起ベクトルを用いての類似度計算にかかる時間が長く、リアルタイムでの処理が困難であった。又、共起ベクトルのサイズが大きく、メモリやハードディスク等の記憶装置に格納することが困難であった。また、低頻度語においては、共起対象となる単語が少ないために、低頻度語と、その他の単語間で共通した共起対象の数が少ない、または共通した共起対象を有さないために、類似度計算が困難であるという問題があった。
【0003】
本発明の目的は、単語間の類似度計算速度を高速化し、注目単語と、それ以外の複数の単語との類似度計算をリアルタイムで行うことを可能にすることと、共起ベクトルのサイズを小さくし、メモリやハードディスク等の記憶装置に、上記共起ベクトルを格納することにある。
本発明の他の目的は、低頻度語に対する類似度計算精度を向上することにある。
【0004】
【課題を解決するための手段】
上記目的を達成するために、本願で開示する発明の概要を説明すれば以下の通りである。本発明の単語間類似度計算プログラムは、記憶装置から文書データを読み出し、該文書データを形態素解析処理を用いて単語に分割し、類似度を計算する各々の注目単語について、その注目単語と共起関係にある単語を抽出し、該共起関係にある単語から表意文字を抽出し、各々の注目単語について、その注目単語と共起関係にある表意文字の頻度を要素とする共起ベクトルを作成し、メモリやハードディスク等の記憶装置に格納する。
次に、類似する単語を抽出しようとする注目単語と、その他の単語との類似度を、該共起ベクトルの類似性に基づき計算し、該注目単語と類似度の高い単語を抽出する。
【0005】
【発明の実施の形態】
以下、本発明の実施例を図を用いて説明する。
図1は、本発明の第1の実施形態である単語間の類似度を計算するための手順を示すフローチャートである。まず、メモリやハードディスク等の記憶装置から文書データを読み出し(S11)、形態素解析処理を用いて文書データを単語に分割し(S12)、単語の品詞情報を用いて、類似度を計算する各々の注目単語に対して共起関係にある単語を抽出する(S13)。ここで、注目単語と共起関係にある単語は、注目単語と係り受けの関係にある単語、注目単語を含む文書中で出現する単語、注目単語の前後で指定した文字数の範囲にある単語等であって、この他にも注目単語と共起関係、つまり注目単語が出現する文脈に含まれる単語であれば構わない。例えば、類似度を計算する注目単語を名詞とし、注目単語と係り受けの関係にある動詞を共起関係にある単語とすると、「パソコンを起動する」という文からは、注目単語「パソコン」という注目単語と、注目単語と係り受けの関係にある単語「起動する」が得られる。
【0006】
次に、注目単語と共起関係にある単語から表意文字を抽出し(S14)、注目単語と共起関係にある表意文字の頻度の集計によって、各々の注目単語と共起関係にある表意文字の頻度を要素とする共起ベクトルを作成し(S15)、メモリやハードディスク等の記憶装置に格納する。ここで、表意文字は漢字とするが、限られた注目単語と共起し、その注目単語を特徴づける文字であれば、仮名、英数字等の文字を用いても構わない。また、共起ベクトルの要素は、表意文字の出現分布を示すものであれば、頻度でなくとも構わない。例えば、「パソコン−起動する」という注目単語と単語の共起関係からは、「パソコン−起」「パソコン−動」という注目単語と表意文字の共起関係が得られる。図2に示す、複数の文書データから、注目単語と共起関係にある表意文字を抽出し、その頻度を集計した結果の例からは、注目単語「パソコン」に対して、
[170(入),160(用),100(購),80(利),80(使),20(動),15(起),…]、という共起ベクトルが得られる。
【0007】
次に、類似する単語を抽出しようとする1つの注目単語と、それ以外の複数の注目単語との類似度を、上記共起ベクトルの類似性に基づき計算する(S16)。ここでは注目単語として「パソコン、PC、HDD、メモリ、プリンタ」があった場合に、「パソコン」が1つの注目単語で、それ以外の複数の注目単語が「PC、HDD、メモリ、プリンタ」となり、共起ベクトルが似た単語である「PC」を抽出することになる。そして、注目単語と類似度の高い単語を、指定した個数、あるいは類似度が指定した閾値以上であるといった基準で抽出する(S17)。ここで、類似度の計算式は、類似度を計算しようとする2つの単語各々に対する共起ベクトルのなす角を示すコサイン距離のように、共起ベクトルの類似性が求まるものであれば、方式を問わない。例えば、「パソコン」の共起ベクトル[170(入),160(用),100(購),80(利),80(使)]と、「PC」の共起ベクトル[140(入),120(用),80(購),70(利),50(使)]からコサイン距離を用いて類似度を計算すると、
【0008】
【数1】
【0009】
という類似度が得られる。ここで、括弧内の値は、注目単語と共起する表意文字と、表意文字各々の注目単語と共起する頻度を示す。
【0010】
したがって、図3に構成を示すテキストマイニング装置や文書検索装置等の文書処理装置において、キーボードやマウス等の入力装置(304)によって指定された注目単語と類似度の高い単語を、記憶されている文書データ(306)から抽出できるので、図4に示すように、同義語、類義語、関連語といった注目単語と類似する単語をディスプレイ等の表示装置(303)に表示させるために用いる。尚、本願の構成は、ハードディスク等の記憶装置に記憶されたプログラム(307、308)をメモリ(302)に読み込んでCPUが制御することで実現される。
【0011】
本実施形態によれば、表意文字である漢字はJIS第一水準漢字すべての文字を用いたとしても最大2965文字と限られているため、JIS第一水準漢字の頻度を要素とする共起ベクトルを用いることによって、母集団が未知であり語彙数の多い単語の頻度を共起ベクトルの要素に用いた場合と比較し、共起ベクトルの次元数が大きく削減できるので、類似度計算速度の高速化に効果がある。共起ベクトルを作成するために用いる文書データのサイズに依存するが、単語を用いた場合には数千〜数十万次元である共起ベクトルが、表意文字を用いることにより数百〜2965次元(JIS第一水準漢字を用いる場合)に削減できるので、コサイン距離を用いた場合の処理速度は、数倍〜数十倍に高速化できる効果と、共起ベクトルのサイズを数分の一から数十分の一に削減できるという効果がある。
【0012】
また、漢字を用いることによって、文字コードと共起ベクトルを構成する各次元の要素とを対応させることができるので、単語を用いる場合に必要な単語と、共起ベクトルを構成する各次元の要素との対応情報が不要となり、メモリ使用量の削減および処理速度の高速化ができるという効果がある。また、「利用」と「使用」のように意味が類似していても単語では異なるものとして扱われているものが、表意文字を用いると「用」が共通するといったように、共起対象を単語とした場合に異なっていた共起ベクトルの要素が、共起対象を表意文字にすることによって一部が共通するという特徴があるため、共起対象である表意文字が少ない低頻度語についても類似度の計算ができるという効果がある。
【0013】
次に、本発明の第2の実施形態を説明する。第2の実施形態は、図5に示すフローチャートのように、第1の実施形態における注目単語と共起関係にある単語を抽出するステップを省略するもので、注目単語の前後の指定した文字数内にある文字、あるいは文書内で共起する文字等の、注目単語と共起する表意文字を直接抽出する。例えば、「パソコン」という単語に注目した場合、「パソコン」と共起関係にある単語を抽出することなく、「パソコン」と共起関係にある表意文字「入、用、購、利、使」の頻度が得られる。本実施形態によれば、注目単語と共起する単語を抽出するステップが省略できるため、共起ベクトルの作成に要する時間が短縮できるという効果がある。
【0014】
次に、本発明の第3の実施形態を説明する。第3の実施形態は、第1または第2の何れかの実施形態における類似度を計算するステップにおいて、単語間の類似度計算に貢献する表意文字と貢献しない表意文字を考慮し、類似度計算に貢献する表意文字には大きな重みを定義し、類似度計算に貢献しない表意文字には小さな重みを定義し、共起ベクトルの各要素に重みを積算した共起ベクトルを用いて、第1の実施形態で示す方式のように類似度を計算する。ここでは、表意文字の重みを共起ベクトルの要素に積算する方式を用いるが、重みの大きい表意文字が類似度計算へ反映できる方式であれば、どのような方式であっても構わない。ここで、表意文字の重みは、ディスプレイ等の表示装置に、重みを定義または修正しようとする表意文字を表示し、該表意文字の重みの入力を受けることで設定する。例えば、図6に示すような表意文字の重みエディタを用いて表意文字の重みを定義することができる。重みが未定義の表意文字には、予め設定されている値をする重みを用いれば良い。
【0015】
例として、表意文字の重みを「8(入),3(用),10(購),5(利),6(使)」と定義し、「パソコン」「PC」の共起ベクトルを、
パソコン ⇒ [170(入),160(用),100(購),80(利),80(使)]
PC ⇒ [140(入),120(用),80(購),70(利),50(使)]
とすると、類似度計算に用いる共起ベクトルは、
パソコン ⇒ [170×8(入),160×3(用),100×10(購),80×5(利),80×6(使)]
PC ⇒ [140×8(入),120×3(用),80×10(購),70×5(利),50×6(使)]
となる。
【0016】
本実施形態によれば、類似度計算の精度を低下させてしまう表意文字の重みを小さく定義することにより精度低下を防止することができ、類似度計算に貢献する表意文字の重みを大きく定義することによって、該表意文字の類似度計算への貢献度を高めることができるので、類似度計算の精度向上ができるという効果がある。
【0017】
次に、本発明の第4の実施形態を説明する。第4の実施形態は、表意文字間の関連度を図7のように定義し、第1乃至第3の実施形態における類似度を計算するステップにおいて、類似度を計算しようとする2つの単語間で共通しない共起対象の表意文字も類似度計算に利用する方法である。例えば、図7に示す表意文字「使」と「用」の関連度は8と定義されており、「使」と「用」は関連が強い単語であるために、「使」と「用」の頻度の類似性を考慮して類似度を計算できる。
【0018】
ここで、表意文字間の関連度は、ディスプレイ等の表示装置に、関連度を定義しようとする2つの表意文字を表示し、該2つの表意文字間の関連度の入力を受けることで設定することができる。例えば、図8に示すような表意文字間の関連度エディタを表示して、入力装置を介してのユーザからの設定を受けることで、表意文字間の関連度を定義、または修正できる。
【0019】
また、本実施例で用いる類似度の計算式は、異なる表意文字間の関連度を考慮するものであれば、どのような計算式であっても構わない。例えば、単語W1と単語W2の類似度計算式は、単語W1のi番目の文字をCi、単語W2のj番目の文字をCj、文字Ciと文字Cjの関連度をRel(Ci,Cj)、単語W1の共起ベクトルをX={x1,x2,…,xI}、単語W2の共起ベクトルをY={y1,y2,…,yJ}、とすると、
【0020】
【数2】
【0021】
という計算式となる。
【0022】
本実施形態によれば、類似度を計算しようとする2つの単語間で共通する共起対象の表意文字が少ない、あるいは共通する共起対象の表意文字がないといった場合にも、類似度が計算できるため、低頻度語等の共起対象が少ない単語と、その他の単語との類似度の計算ができるという効果がある。
次に、本発明の第5の実施形態を説明する。第5の実施形態は、類似度の計算対象となる複数の単語のすべての組に対して第1乃至第4の実施形態に示した方法を用いて類似度を計算し、図9に示すように2つの単語の組と、その単語間の類似度からなるデータをメモリやハードディスク等の記憶装置に格納しておく。更に、類似した単語を抽出しようとする注目単語を指定し、該単語の組とその単語間の類似度からなるデータから該注目単語が含まれる単語の組を検索することによって、該注目単語と類似度の高い単語を指定した個数あるいは指定する閾値以上の類似度を持つ単語といった基準で抽出する。
【0023】
本実施例によれば、類似する単語を抽出しようとする注目単語が指定された際に、単語間の類似度を計算する必要がないため、高速に注目単語と類似する単語を抽出できるという効果がある。また、文書データの更新や新語の登場等に伴い、単語の組とその類似度からなるデータを更新する必要があるが、表意文字の頻度を要素とする共起ベクトルを用いて類似度を計算することによって、該単語の組と類似度からなるデータを高速に作成できる。
【0024】
次に、本発明の第6の実施形態を説明する。第6の実施形態は、第1乃至第5の実施形態によって、各々の注目単語と同義関係にある同義語を抽出し、ユーザが指定する注目単語と、その同義語の組を、その同義関係が成り立つ文脈情報と共に、図10に示すような同義語辞書としてメモリやハードディスクの記憶装置に記憶する。。ここで、文脈情報は、その文脈で出現する表意文字の頻度を要素とする文脈ベクトルで定義し、文脈に依存せず常に同義関係が成り立つ同義語には、文脈情報を格納しなくても構わない。この文脈情報は、多義語の存在によって、複数の語義がある場合に語義を判定するために用いる。例としては、注目単語「米国」とその同義語「米」の組と、注目単語「お米」とその同義語「米」が挙げられ、米を同義語辞書を用いて「米国」または「お米」に置換しようとする場合に、同義関係が成立する文脈情報を示す文脈ベクトルを確認すると、
「米国−米」⇒[100(旅),80(政),70(府),60(発),55(表),…]
「お米−米」⇒[200(食),150(買),80(炊),30(作),20(育),…]
となっており、注目している文脈中に含まれている表意文字からなる文脈ベクトルは、[2(食),1(炊),1(飯),…]となっているため、この文脈ベクトルと「米国−米」「お米−米」の文脈ベクトルの比較をすることによって、「お米−米」の文脈ベクトルとの距離が近いことが判別でき、ここで置換すべき単語は「お米」であるということが分かる。
本実施例によれば、多義語を含む同義語の組について、最適な同義語を自動で選択できるという効果がある。また、表意文字の頻度を要素とする文脈ベクトルを用いるため、文脈ベクトルの次元数が小さく、メモリやハードディスク等の記憶装置へ文脈ベクトルを記憶できるという効果がある。
【0025】
【発明の効果】
本発明によれば、表意文字の頻度を要素とする共起ベクトルを単語間の類似度計算に用いることによって、単語の頻度を要素とする共起ベクトルを用いる場合と比較し、共起ベクトルの次元が大きく削減できるので、類似度計算速度の高速化と、共起ベクトルのサイズの削減といった効果がある。また、共起対象である単語で、意味が類似していても異なる表記であるために別のものとして扱われていた単語が、表意文字を用いることによって、共通する文字が発生し、共通する共起対象の数が増加するために類似度計算精度が向上するという効果がある。また、語義判定に用いる文脈ベクトルの要素に、表意文字の頻度を用いることによって、文脈ベクトルのサイズを小さくできるので、メモリやハードディスク等の記憶装置へ文脈ベクトルを記憶できるという効果がある。
【図面の簡単な説明】
【図1】本発明の第1の実施形態である単語間類似度を計算する手順を示すフローチャートである。
【図2】注目単語と共起する表意文字の頻度の例を示す図である。
【図3】文書処理装置の構成を示す図である。
【図4】注目単語に類似する単語を表示する画面を示す図である。
【図5】本発明の第2の実施形態である単語間類似度を計算する手順を示すフローチャートである。
【図6】表意文字の類似度計算への貢献度を示す重みを修正する画面を示す図である。
【図7】表意文字間の関連度の定義例を示す図である。
【図8】表意文字間の関連度を修正する画面を示す図である。
【図9】単語間の類似度の保存形式を示す図である。
【図10】同義語となる単語の組と、同義関係が成り立つ文脈情報の保存形式を示す図である。
Claims (1)
- バスラインを介してCPU(301)、メモリ(302)、表示装置(303)、入力装置(304)および記憶装置が相互に接続された文書処理装置において、
前記記憶装置には文書データおよび計算処理プログラムが格納され、
前記記憶手段から文書データを前記メモリ(302)上に前記プログラムに従ったコンピュータが読み出す手段と、
前記プログラムに従ったコンピュータが前記文書データを単語に分割する手段と、
前記入力装置(304)から入力された注目単語と共起関係にある単語を前記プログラムに従ったコンピュータが前記単語データから抽出する手段と、
前記プログラムに従ったコンピュータが前記抽出された単語を表意文字に分解し、前記注目単語と表意文字との共起ベクトルを抽出する手段と、
前記プログラムに従ったコンピュータが前記抽出された前記共起ベクトルのなす角度を示すコサイン距離を用いて類似度を求める手段と、
前記プログラムに従ったコンピュータが前記注目単語との間で類似度の高い単語として、類似度の高い方から指定した個数か又は類似度が指定したしきい値以上のものを出力する手段を有することを特徴とする文書処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003120899A JP4055638B2 (ja) | 2003-04-25 | 2003-04-25 | 文書処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003120899A JP4055638B2 (ja) | 2003-04-25 | 2003-04-25 | 文書処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004326479A JP2004326479A (ja) | 2004-11-18 |
JP4055638B2 true JP4055638B2 (ja) | 2008-03-05 |
Family
ID=33499601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003120899A Expired - Fee Related JP4055638B2 (ja) | 2003-04-25 | 2003-04-25 | 文書処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4055638B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010152561A (ja) * | 2008-12-24 | 2010-07-08 | Toshiba Corp | 類似表現抽出装置、サーバ装置及びプログラム |
JP5290218B2 (ja) * | 2010-02-25 | 2013-09-18 | 日本放送協会 | 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム |
JP5611173B2 (ja) * | 2011-11-10 | 2014-10-22 | 日本電信電話株式会社 | 単語属性推定装置及び方法及びプログラム |
JP5670293B2 (ja) * | 2011-11-21 | 2015-02-18 | 日本電信電話株式会社 | 単語追加装置、単語追加方法、およびプログラム |
WO2016101133A1 (en) | 2014-12-23 | 2016-06-30 | Microsoft Technology Licensing, Llc | Surfacing relationships between datasets |
JP6805503B2 (ja) * | 2016-02-24 | 2020-12-23 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
JP6509391B1 (ja) * | 2018-01-31 | 2019-05-08 | 株式会社Fronteo | 計算機システム |
-
2003
- 2003-04-25 JP JP2003120899A patent/JP4055638B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004326479A (ja) | 2004-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6398510B2 (ja) | 実体のリンク付け方法及び実体のリンク付け装置 | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
AU2016269573B2 (en) | Input entity identification from natural language text information | |
JPWO2019224891A1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
JP4055638B2 (ja) | 文書処理装置 | |
JP2011165087A (ja) | 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
JP5117744B2 (ja) | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
JP2003263441A (ja) | キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体 | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP2003108571A (ja) | 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 | |
JP7117168B2 (ja) | 情報処理装置および情報処理方法 | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP5594225B2 (ja) | 知識獲得装置、知識取得方法、及びプログラム | |
JP5419906B2 (ja) | 主題抽出装置、方法、及びプログラム | |
JP4314271B2 (ja) | 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体 | |
JP2005267397A (ja) | 語句分類システム、語句分類方法、および語句分類プログラム | |
JP4592556B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP7378680B2 (ja) | 情報処理装置、更新方法、及び更新プログラム | |
JP2006190072A (ja) | 自動換言装置、自動換言方法及び換言処理プログラム | |
JP6451151B2 (ja) | 質問応答装置、質問応答方法、プログラム | |
WO2022137440A1 (ja) | 検索システム、検索方法、及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050916 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070703 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070911 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071203 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101221 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |