JP4622272B2 - 言語処理装置、言語処理方法およびプログラム - Google Patents
言語処理装置、言語処理方法およびプログラム Download PDFInfo
- Publication number
- JP4622272B2 JP4622272B2 JP2004066807A JP2004066807A JP4622272B2 JP 4622272 B2 JP4622272 B2 JP 4622272B2 JP 2004066807 A JP2004066807 A JP 2004066807A JP 2004066807 A JP2004066807 A JP 2004066807A JP 4622272 B2 JP4622272 B2 JP 4622272B2
- Authority
- JP
- Japan
- Prior art keywords
- string
- sentence
- distance
- weight
- language processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この各単語間の類似度の値を用いて、入力文字列の各単語列と対比文字列の単語列との間の類似度を順次求め、入力文字列中の全ての単語を含む単語列と対比文字列中の全ての単語を含む単語列との間の類似度を、入力文字列と対比文字列との類似度として判定する。
前記言語処理装置が備えるストリング構造変換手段が、前記構成単位が前記第1の文及び前記第2の文において出現する位置に基づいて、前記構成単位をグラフ理論上のストリングの頂点にそれぞれ格納し、第1ストリング及び第2ストリングとするストリング構造変換ステップと、
前記言語処理装置が備える距離計算手段が、前記第1ストリングと、前記第2ストリングのすべての部分列との間の距離を求める距離計算ステップと、
前記言語処理装置が備える部分列抽出手段が、前記距離計算ステップで算出された距離が最小、又は、前記第1ストリングと前記部分列との距離を、前記部分列に含まれる構成単位の数で割った値が最小である部分列を、前記第1ストリングと類似する部分列として抽出する部分列抽出ステップと、
前記言語処理装置が備える類似部分抽出手段が、前記部分列抽出ステップで抽出された部分列に含まれる構成単位を含む部分を、前記第1の文と類似する類似部として、前記第2の文から抽出する類似部分抽出ステップとを備え、
前記部分列間距離計算ステップは、前記第1ストリングを、前記部分列に写像する場合に実行される、前記第1ストリングに含まれる構成単位を置換する処理、前記部分列に含まれる構成単位を前記第1のストリングに挿入する処理、及び前記第1ストリングに含まれる構成単位を脱落させる処理のそれぞれに対して設定された置換重み、挿入重み、脱落重みと、前記第1ストリングを前記部分列に写像する場合に必要となる各処理の回数とを乗算し、その総和を前記第1ストリングと前記部分列との距離とすることを特徴とする。
第1の文及び第2の文を構成する形態素の形態素情報をそれぞれ抽出し、前記形態素情報に含まれる単語情報及び品詞情報とに基づいて選択した形態素を、前記第1の文及び前記第2の文を構成する構成単位としてそれぞれ抽出する構成単位抽出手段と、前記構成単位が前記第1の文及び前記第2の文において出現する位置に基づいて、前記構成単位をグラフ理論上のストリングの頂点にそれぞれ格納し、第1ストリング及び第2ストリングとするストリング構造変換手段と、前記第1ストリングと、前記第2ストリングのすべての部分列との間の距離を求める距離計算手段と、前記部分列間計算手段により算出した距離が最小、又は、前記第1ストリングと前記部分列との距離を、前記部分列に含まれる構成単位の数で割った値が最小である部分列を、前記第1ストリングと類似する部分列として抽出する部分列抽出手段と、前記部分列抽出手段が抽出した部分列に含まれる構成単位を含む部分を、前記第1の文と類似する類似部として、前記第2の文から抽出する類似部分抽出手段と、して機能させ、前記距離計算手段は、前記第1ストリングを、前記部分列に写像する場合に実行される、前記第1ストリングに含まれる構成単位を置換する処理、前記部分列に含まれる構成単位を前記第1のストリングに挿入する処理、及び前記第1ストリングに含まれる構成単位を脱落させる処理のそれぞれに対して設定された置換重み、挿入重み、脱落重みと、前記第1ストリングを前記部分列に写像する場合に必要となる各処理の回数とを乗算し、その総和を前記第1ストリングと前記部分列との距離とすることを特徴とする。
2)ストリングの頂点に単語情報を格納している。頂点間の置換重みが実質的には前記頂点に格納している単語間の置換重みになる。同様に、第1ストリングの頂点の脱落重みが実質的には前記頂点に格納している単語の脱落重みになる。また、第2ストリングの頂点の挿入重みが実質的には前記頂点に格納している単語の挿入重みになる。Subs(x,y)は、頂点xと頂点yに置換するときの置換重みを表す。Subs(x,y)=頂点xに格納している単語と頂点yに格納している単語間の置換重みになる。Del(x)は頂点xの脱落重みを表す。Del(x)=頂点xに格納している単語の脱落重みになる。Ins(y)は、頂点yの挿入重みを表す。Ins(y)=頂点yに格納している単語の挿入重みになる。
(1-1)境界条件(1≦i≦n, 1≦j≦m)
・ d1(0,0) = 0;
・ d1(i,0) = d1(i-1,0) + 1,
・ d1(0,j) = 0,
(1-2) d1(i,j)の計算(1≦i≦n,1≦j≦m)
・ d1(i,j) = min { temp11, temp12, temp13 },
・ temp11 = d1(i-1,j-1) + 1, if xi not = yj,
・ temp11 = d1(i-1,j-1), if xi = yj,
・ temp12 = d1(i,j-1) + 1,
・ temp13 = d1(i-1,j) + 1,
(1-3) 部分列間の距離
・ D(X,Y(e)) = d1(n,e);
例えば、ストリングX=lsmkとY=ablmmkldmkのすべての部分列間の距離を公式(1-1)〜(1-3)で求めることができる。
temp11 = d1(1,1) + 1 = 1 + 1 = 2
temp12 = d1(2,1) + 1 = 2 + 1 = 3
temp13 = d1(1,2) + 1 = 1 + 1 = 2
となり、
dl(2,2) = min { 2, 3 ,2} = 2
となるので、部分列間の距離は、式(1-3)より、
D(X,Y(e)) = 2
となる。
temp11 = d1(3,5) = 1
temp12 = d1(4,5) + 1 = 2 + 1 = 3
temp13 = d1(3,6) + 1 = 2 + 1 = 3
となり、
dl(4,6) = min { 1, 3 ,3} = 1
となるので、部分列間の距離は、式(1-3)より、
D(X,Y(e)) = 1
となる。ここで、d1(4,j)(1≦j≦m)はXとYのすべての部分列間の距離である。
d1(4,6)=d1(4,10)=1
が一番小さい部分列間の距離であり、それぞれが、XとYの部分列y3y4y5y6(lmmk)、XとYの部分列y7y8y9y10(ldmk)間の距離である。
(2-1) 境界条件(1≦i≦n, 1≦j≦m)
・ d2(0,0) = 0;
・ d2(i,0) = d2(i-1,0) + Del(ti),
・ d2(0,j) = 0,
(2-2) d2(i,j)の計算(1≦i≦n, 1≦j≦m)
・ d2(i,j) = min { temp21, temp22, temp23 },
・ temp21 = d2(i-1,j-1) + Subs(ti, sj),
・ temp22 = d2(i,j-1) + Ins(sj),
・ temp23 = d2(i-1,j) + Del(ti),
(2-3) 部分列間の距離
・ D(T,SS(e)) = d2(n,e);
公式(2-2)において、上述したように、Subs(x,y)は頂点間の置換重み、Del(x)は頂点間の脱落重み、Ins(y)は頂点間の挿入重みをそれぞれ示す。
(3-1) 境界条件(1≦i≦n, 1≦j≦m)
・ p(0,0) = (0,0);
・ p(i,0) = (i-1,0);
・ p(0,j) = (0,0);
(3-2) d2(i,j)の計算(1≦i≦n, 1≦j≦m)過程の記録p(i,j)
・ d2(i,j) = min { temp21, temp22, temp23 },
・ temp21 = d2(i-1,j-1) + Subs(ti, sj),
・ temp22 = d2(i,j-1) + Ins(sj),
・ temp23 = d2(i-1,j) + Del(ti),
・ if d2(i,j) = temp22 : p(i,j) = (i,j-1);
・ if d2(i,j) = temp21 : p(i,j) = (i-1,j-1);
・ if d2(i,j) = temp23 : p(i,j) = (i-1,j);
・ Algorithm Similar-Sub-String
・ 入力 p(i,j) (0≦i≦n, 0≦j≦m)及びe;
・ 出力 SS(e)部分列とSS(e)の長さSize(e)
・ i=n, j=e; size=0;
・ while (p(i,j) not = (0,0) ) do
・ {
・ ISS(size) = sj ;
・ (i,j) = p(i,j) ;
・ size = size+1;
・ }
・ for (i=size-1 to 0; i=i-1)
・ SS(size-1-i) = ISS(i);
・ Size(e) = size;
・D(Sa,Sb) = min{ d(n,j) }; (1≦j≦m) (4)
・D(Sa,Sb) = min{ d(n,j)/(n+Size(j)) }; (1≦j≦m) (5)
公式(4)は、第1の文から変換されたストリングと第2の文から変換されたストリングの部分列間の中の最小な距離値を第1の文と第2の文の類似部分間の距離とすることを示している。公式(5)は、部分列間の距離と、この部分列間の距離に対応している第2のストリングの部分列の長さとの割り算の最小値を第1の文と第2の文の類似部分間の距離とすることを示している。
D(Sa,Sb)=min{ d(n,j) }=d2(3,6)=100
である。
D(Sa,Sb)=min{ d(n,j)/(n+Size(j)) }=d2(3,6)/(n+Size(6))=100/6=16.67
である。
D(S,SS(e))=d2(n,j)(1≦j≦m)
を求める。
2 形態素解析部
3 ストリング構造変換部
4 部分列間距離計算部
5 部分列抽出部
6 類似部分間距離計算部
7 最大類似部分抽出部
8 単語写像重み計算部
9 頂点写像重み計算部
18 写像重み設定部
Claims (13)
- 第1の文及び第2の文を構成する形態素の形態素情報をそれぞれ抽出し、前記形態素情報に含まれる単語情報及び品詞情報に基づいて選択した形態素を、前記第1の文及び前記第2の文を構成する構成単位としてそれぞれ抽出する構成単位抽出手段と、
前記構成単位が前記第1の文及び前記第2の文において出現する位置に基づいて、前記構成単位をグラフ理論上のストリングの頂点にそれぞれ格納し、第1ストリング及び第2ストリングとするストリング構造変換手段と、
前記第1ストリングと、前記第2ストリングのすべての部分列との間の距離を求める距離計算手段と、
前記距離計算手段により算出した距離が最小、又は、前記第1ストリングと前記部分列との距離を、前記部分列に含まれる構成単位の数で割った値が最小である部分列を、前記第1ストリングと類似する部分列として抽出する部分列抽出手段と、
前記部分列抽出手段が抽出した部分列に含まれる構成単位を含む部分を、前記第1の文と類似する類似部として、前記第2の文から抽出する類似部分抽出手段とを備え、
前記距離計算手段は、前記第1ストリングを、前記部分列に写像する場合に実行される、前記第1ストリングに含まれる構成単位を置換する処理、前記部分列に含まれる構成単位を前記第1のストリングに挿入する処理、及び前記第1ストリングに含まれる構成単位を脱落させる処理のそれぞれに対して設定された置換重み、挿入重み、脱落重みと、前記第1ストリングを前記部分列に写像する場合に必要となる各処理の回数とを乗算し、その総和を前記第1ストリングと前記部分列との距離とすることを特徴とする言語処理装置。 - 前記ストリング構造変換手段は、前記構成単位が文に出現している左右位置情報によって、前記構成単位を左から右の順でグラフ理論上のストリングの頂点にそれぞれ格納することを特徴とする請求項1に記載の言語処理装置。
- 前記ストリング構造変換手段は、前記構成単位を構成する単語情報と品詞情報をグラフ理論上のストリングの頂点に格納することを特徴とする請求項1から請求項2の何れか一項に記載の言語処理装置。
- 前記脱落重みは定数として設定されていることを特徴とする請求項1から3のいずれか一項記載の言語処理装置。
- 前記言語処理装置は更に、単語の品詞によって前記脱落重みを求める単語写像重み計算手段を有することを特徴とする請求項1から3のいずれか一項記載の言語処理装置。
- 前記挿入重みは定数として設定されていることを特徴とする請求項1から3のいずれか一項記載の言語処理装置。
- 前記言語処理装置は更に、単語の品詞によって前記挿入重みを求める単語写像重み計算手段を有することを特徴とする請求項1から3のいずれか一項記載の言語処理装置。
- 二つの構成単位が同一の場合は前記置換重みをゼロに設定し、二つの構成単位が異なる場合は前記構成単位間の置換重みを正の定数に設定することを特徴とする請求項1から3のいずれか一項記載の言語処理装置。
- 前記構成単位間の距離を前記置換重みとして設定することを特徴とする請求項1から3のいずれか一項記載の言語処理装置。
- 前記脱落重みに前記挿入重みを加えた重みが前記置換重みより大きくなるように各重みを設定することを特徴とする請求項1から請求項9の何れか一項に記載の言語処理装置。
- 前記部分列抽出手段は、前記第1のストリングと前記部分列との距離を計算するときの中間計算過程を記録し、前記記録中間計算過程を逆に辿っていくことにより、前記距離計算手段により算出した距離が最小、又は、前記第1ストリングと前記部分列との距離を、前記部分列に含まれる構成単位の数で割った値が最小である部分列を抽出することを特徴とする請求項1から請求項10の何れか一項に記載の言語処理装置。
- 言語処理装置が備える構成単位抽出手段が、第1の文及び第2の文を構成する形態素の形態素情報をそれぞれ抽出し、前記形態素情報に含まれる単語情報及び品詞情報とに基づいて選択した形態素を、前記第1の文及び前記第2の文を構成する構成単位としてそれぞれ抽出する構成単位抽出ステップと、
前記言語処理装置が備えるストリング構造変換手段が、前記構成単位が前記第1の文及び前記第2の文において出現する位置に基づいて、前記構成単位をグラフ理論上のストリングの頂点にそれぞれ格納し、第1ストリング及び第2ストリングとするストリング構造変換ステップと、
前記言語処理装置が備える距離計算手段が、前記第1ストリングと、前記第2ストリングのすべての部分列との間の距離を求める距離計算ステップと、
前記言語処理装置が備える部分列抽出手段が、前記距離計算ステップで算出された距離が最小、又は、前記第1ストリングと前記部分列との距離を、前記部分列に含まれる構成単位の数で割った値が最小である部分列を、前記第1ストリングと類似する部分列として抽出する部分列抽出ステップと、
前記言語処理装置が備える類似部分抽出手段が、前記部分列抽出ステップで抽出された部分列に含まれる構成単位を含む部分を、前記第1の文と類似する類似部として、前記第2の文から抽出する類似部分抽出ステップとを備え、
前記部分列間距離計算ステップは、前記第1ストリングを、前記部分列に写像する場合に実行される、前記第1ストリングに含まれる構成単位を置換する処理、前記部分列に含まれる構成単位を前記第1のストリングに挿入する処理、及び前記第1ストリングに含まれる構成単位を脱落させる処理のそれぞれに対して設定された置換重み、挿入重み、脱落重みと、前記第1ストリングを前記部分列に写像する場合に必要となる各処理の回数とを乗算し、その総和を前記第1ストリングと前記部分列との距離とすることを特徴とする言語処理方法。 - コンピュータを、
第1の文及び第2の文を構成する形態素の形態素情報をそれぞれ抽出し、前記形態素情報に含まれる単語情報及び品詞情報とに基づいて選択した形態素を、前記第1の文及び前記第2の文を構成する構成単位としてそれぞれ抽出する構成単位抽出手段と、
前記構成単位が前記第1の文及び前記第2の文において出現する位置に基づいて、前記構成単位をグラフ理論上のストリングの頂点にそれぞれ格納し、第1ストリング及び第2ストリングとするストリング構造変換手段と、
前記第1ストリングと、前記第2ストリングのすべての部分列との間の距離を求める距離計算手段と、
前記部分列間計算手段により算出した距離が最小、又は、前記第1ストリングと前記部分列との距離を、前記部分列に含まれる構成単位の数で割った値が最小である部分列を、前記第1ストリングと類似する部分列として抽出する部分列抽出手段と、
前記部分列抽出手段が抽出した部分列に含まれる構成単位を含む部分を、前記第1の文と類似する類似部として、前記第2の文から抽出する類似部分抽出手段と、して機能させ、
前記距離計算手段は、前記第1ストリングを、前記部分列に写像する場合に実行される、前記第1ストリングに含まれる構成単位を置換する処理、前記部分列に含まれる構成単位を前記第1のストリングに挿入する処理、及び前記第1ストリングに含まれる構成単位を脱落させる処理のそれぞれに対して設定された置換重み、挿入重み、脱落重みと、前記第1ストリングを前記部分列に写像する場合に必要となる各処理の回数とを乗算し、その総和を前記第1ストリングと前記部分列との距離とすることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004066807A JP4622272B2 (ja) | 2004-03-10 | 2004-03-10 | 言語処理装置、言語処理方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004066807A JP4622272B2 (ja) | 2004-03-10 | 2004-03-10 | 言語処理装置、言語処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005258624A JP2005258624A (ja) | 2005-09-22 |
JP4622272B2 true JP4622272B2 (ja) | 2011-02-02 |
Family
ID=35084301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004066807A Expired - Fee Related JP4622272B2 (ja) | 2004-03-10 | 2004-03-10 | 言語処理装置、言語処理方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4622272B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7348746B2 (ja) * | 2019-04-26 | 2023-09-21 | 一般財団法人日本特許情報機構 | 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム |
KR102352481B1 (ko) * | 2019-12-27 | 2022-01-18 | 동국대학교 산학협력단 | 기계학습을 기반으로 구축된 형태소 분석기를 이용한 문장 분석 장치 및 그 동작 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271667A (ja) * | 2002-03-15 | 2003-09-26 | Fuji Xerox Co Ltd | 木構造間距離計算装置および方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05225247A (ja) * | 1992-01-14 | 1993-09-03 | Nec Corp | 文書間構造表示方法 |
JP3363552B2 (ja) * | 1993-11-30 | 2003-01-08 | キヤノン株式会社 | 文書処理方法とその装置 |
JPH08106474A (ja) * | 1994-10-07 | 1996-04-23 | Hitachi Ltd | 類似例文検索結果表示方法及び装置 |
-
2004
- 2004-03-10 JP JP2004066807A patent/JP4622272B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271667A (ja) * | 2002-03-15 | 2003-09-26 | Fuji Xerox Co Ltd | 木構造間距離計算装置および方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2005258624A (ja) | 2005-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4038717B2 (ja) | テキスト文比較装置 | |
US7630879B2 (en) | Text sentence comparing apparatus | |
Dürlich et al. | EFLLex: A graded lexical resource for learners of English as a foreign language | |
US11625537B2 (en) | Analysis of theme coverage of documents | |
JP6535858B2 (ja) | 文書解析装置、プログラム | |
TW201403354A (zh) | 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法 | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
Riza et al. | Question generator system of sentence completion in TOEFL using NLP and k-nearest neighbor | |
JP2019121139A (ja) | 要約装置、要約方法、及び要約プログラム | |
Serigos | Applying corpus and computational methods to loanword research: new approaches to Anglicisms in Spanish | |
Alotaibi et al. | Extending the knowledge of the Arabic sentiment classification using a foreign external lexical source | |
Nassiri et al. | Approaches, methods, and resources for assessing the readability of arabic texts | |
Elbarougy et al. | Graph-Based Extractive Arabic Text Summarization Using Multiple Morphological Analyzers. | |
Elbarougy et al. | A proposed natural language processing preprocessing procedures for enhancing arabic text summarization | |
Schirmer et al. | A new dataset for topic-based paragraph classification in genocide-related court transcripts | |
Sudiro et al. | Aspect Based Sentiment Analysis with Combination Feature Extraction LDA and Word2vec | |
JP4622272B2 (ja) | 言語処理装置、言語処理方法およびプログラム | |
Rajan et al. | Survey of nlp resources in low-resource languages nepali, sindhi and konkani | |
Ali et al. | Word embedding based new corpus for low-resourced language: Sindhi | |
Borin et al. | Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
CN113326348A (zh) | 一种博客质量评估方法及工具 | |
JP2004151757A (ja) | 文章評価採点装置、プログラム及び記憶媒体 | |
Luong et al. | Assessing vietnamese text readability using multi-level linguistic features | |
Morbieu et al. | Main content extraction from web pages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100105 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20100225 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100303 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101005 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101018 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131112 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |