JP6172447B2 - 関連性判定システム、方法、およびプログラム - Google Patents
関連性判定システム、方法、およびプログラム Download PDFInfo
- Publication number
- JP6172447B2 JP6172447B2 JP2013108170A JP2013108170A JP6172447B2 JP 6172447 B2 JP6172447 B2 JP 6172447B2 JP 2013108170 A JP2013108170 A JP 2013108170A JP 2013108170 A JP2013108170 A JP 2013108170A JP 6172447 B2 JP6172447 B2 JP 6172447B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- relevance
- text
- sets
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
次に、本発明の第1の実施形態による関連性判定システムについて図面を参照して詳細に説明する。
Σx∈XΣy∈Y [p(x,y)×log{p(x,y) / (p(x)×p(y)) }] (1)
ここで、p(x,y)は、XとYの同時分布関数、p(x)とp(y)は、それぞれXとYの確率分布関数である。ここで、logの底は2とする。
−Σx∈X p(x)×log{p(x)}
+Σx∈XΣy∈Y [ p(x|y)log {p(x|y) }] (2)
Σx∈XΣy∈Y (Nxy − Exy)2 / Exy (3)
ここで、Nxyは、集合xで語句yを含む仕様テキスト数であり、Exyは、下記の式(4)で表される。
Exy =(Nx0+Nx1)×(Nc1y+Nc2y) / 全仕様テキスト数 (4)
Exyは、集合xと語句yが独立であると仮定したときに期待される仕様テキスト数である。
log(|D|/|{d:t∈d}|) (5)
ここで、|D|は、集合内の仕様テキスト総数、|{d:t∈d}|は、集合内で語句tを含む仕様テキスト数である。
d(i,j)=1−C(i,j) /{ C(i)+C(j)} (6)
d(i,j)=1−[C(i,j)−min{C(i),C(j)}]/max{C(i),C(j)} (7)
次に、本発明の第2の実施形態による関連性判定システムについて図面を参照して詳細に説明する。なお、第1の実施形態と同様の構成要素については、同一の符号を付し、詳細な説明を省略する。
システム開発における仕様テキスト間の関連性を判定するシステムであって、
2つの集合に分類された仕様テキストに対し、仕様テキストの語句の出現頻度の集合間における偏り、及びそれぞれの集合内における語句の出現頻度の仕様テキスト間における偏りの少なくとも1つに基づいて不要語句を推定し、推定された不要語句に基づいて仕様テキストを変換する語句変換部と、
変換された仕様テキストに基づいて集合間の個々の仕様テキスト間の関連性を計算する関連性計算部と、
を備えることを特徴とする関連性判定システム。
前記関連性計算部は、前記関連性を、コルモゴロフ複雑性の概算を用いて類似度として計算することを特徴とする付記1に記載の関連性判定システム。
前記語句変換部は、推定された不要語句を、予め定めた特殊記号に変換することを特徴とする付記1または付記2に記載の関連性判定システム。
前記語句変換部は、集合間における偏りとして、相互情報量、情報利得や情報利得比、カイ二乗統計量のいずれか1つまたはその組合せを用い、集合間の偏りが予め定めた閾値より大きい語句を不要語句と推定することを特徴とする付記1から付記3までのいずれか1つに記載の関連性判定システム。
前記語句変換部は、集合内における偏りとして、逆文書頻度を用い、集合内の偏りが予め定めた閾値より小さい語句を不要語句と推定することを特徴とする付記1から付記4までのいずれか1つに記載の関連性判定システム。
前記語句変換部は、2つの集合間の仕様テキストの予め定めた閾値以上の長さの最長共通部分文字列を抽出し、抽出した文字列の集合間における偏り、及びそれぞれの集合内における仕様テキスト間の偏りの少なくとも1つに基づいて、語句を変換し処理済みとする処理を、未選択の文字列がなくなるまで繰り返す、ことを特徴とする付記1から付記3までのいずれか1つに記載の関連性判定システム。
前記語句変換部は、それぞれの集合内で2つ以上の仕様テキストに出現する閾値以上の長さの最長共通部分文字列を抽出し、抽出した文字列の集合内における偏りに基づいて語句を変換し処理済みとする処理を、未選択の文字列がなくなるまで繰り返す、ことを特徴とする付記1から付記3までおよび付記6のいずれか1つに記載の関連性判定システム。
前記仕様テキストは、仕様テキストの構造を示す構造情報と、仕様テキストの内容を示す仕様本文とに分割されており、
前記語句変換部は、前記構造情報のテキストを変換し、
前記関連性計算部は、前記変換された構造情報と前記仕様本文とを連結したテキストに基づいて、仕様テキスト間の関連性を計算する、
ことを特徴とする付記1から付記7までのいずれか1つに記載の関連性判定システム。
システム開発における仕様テキスト間の関連性を判定する方法であって、
語句変換部が、2つの集合に分類された仕様テキストに対し、仕様テキストの語句の出現頻度の集合間における偏り、及びそれぞれの集合内における語句の出現頻度の仕様テキスト間における偏りの少なくとも1つに基づいて不要語句を推定し、推定された不要語句に基づいて仕様テキストを変換する語句変換ステップと、
関連性計算部が、変換された仕様テキストに基づいて集合間の個々の仕様テキスト間の関連性を計算する関連性計算ステップと、
を備えることを特徴とする関連性判定方法。
前記関連性計算ステップでは、前記関連性計算部が、前記関連性を、コルモゴロフ複雑性の概算を用いて類似度として計算することを特徴とする付記9に記載の関連性判定方法。
前記語句変換ステップでは、前記語句変換部が、推定された不要語句を、予め定めた特殊記号に変換する、ことを特徴とする付記9または付記10に記載の関連性判定方法。
前記語句変換ステップでは、前記語句変換部が、集合間における偏りとして、相互情報量、情報利得や情報利得比、カイ二乗統計量のいずれか1つまたはその組合せを用い、集合間の偏りが予め定めた閾値より大きい語句を不要語句と推定する、ことを特徴とする付記9から付記11までのいずれか1つに記載の関連性判定方法。
前記語句変換ステップでは、前記語句変換部が、集合内における偏りとして、逆文書頻度を用い、集合内の偏りが予め定めた閾値より小さい語句を不要語句と推定する、ことを特徴とする付記9から付記12までのいずれか1つに記載の関連性判定方法。
前記語句変換ステップでは、前記語句変換部が、2つの集合間の仕様テキストの予め定めた閾値以上の長さの最長共通部分文字列を抽出し、抽出した文字列の集合間における偏り、及びそれぞれの集合内における仕様テキスト間の偏りのすくなくとも1つに基づいて、語句を変換し処理済みとする処理を、未選択の文字列がなくなるまで繰り返す、ことを特徴とする付記9から付記11までのいずれか1つに記載の関連性判定方法。
前記語句変換ステップでは、前記語句変換部が、それぞれの集合内で2つ以上の仕様テキストに出現する閾値以上の長さの最長共通部分文字列を抽出し、抽出した文字列の集合内における偏りに基づいて語句を変換し処理済みとする処理を、未選択の文字列がなくなるまで繰り返す、ことを特徴とする付記9から付記11までおよび付記14のいずれか1つに記載の関連性判定方法。
前記仕様テキストは、仕様テキストの構造を示す構造情報と、仕様テキストの内容を示す仕様本文とに分割されており、
前記語句変換ステップでは、前記語句変換部が、前記構造情報のテキストを変換し、
前記関連性計算ステップでは、前記関連性計算部が、前記変換された構造情報と前記仕様本文とを連結したテキストに基づいて、仕様テキスト間の関連性を計算する、
ことを特徴とする付記9から付記15までのいずれか1に記載の関連性判定方法。
コンピュータに、システム開発における仕様テキスト間の関連性を判定させるプログラムであって、
2つの集合に分類された仕様テキストに対し、仕様テキストの語句の出現頻度の集合間における偏り、及びそれぞれの集合内における語句の出現頻度の仕様テキスト間における偏りの少なくとも1つに基づいて不要語句を推定し、推定された不要語句に基づいて仕様テキストを変換する語句変換処理と、
変換された仕様テキストに基づいて集合間の個々の仕様テキスト間の関連性を計算する関連性計算処理と、
を前記コンピュータに実行させる関連性判定プログラム。
前記関連性計算処理は、前記関連性を、コルモゴロフ複雑性の概算を用いて類似度として計算する、ことを特徴とする付記17に記載の関連性判定プログラム。
前記語句変換処理は、推定された不要語句を、予め定めた特殊記号に変換する、ことを特徴とする付記17または付記18に記載の関連性判定プログラム。
前記語句変換処理は、集合間における偏りとして、相互情報量、情報利得や情報利得比、カイ二乗統計量のいずれか1つまたはその組合せを用い、集合間の偏りが予め定めた閾値より大きい語句を不要語句と推定する、ことを特徴とする付記17から付記19までのいずれか1つに記載の関連性判定プログラム。
前記語句変換処理は、集合内における偏りとして、逆文書頻度を用い、集合内の偏りが予め定めた閾値より小さい語句を不要語句と推定する、ことを特徴とする付記17から付記20までのいずれか1つに記載の関連性判定プログラム。
前記語句変換処理は、2つの集合間の仕様テキストの予め定めた閾値以上の長さの最長共通部分文字列を抽出し、抽出した文字列の集合間における偏り、及びそれぞれの集合内における仕様テキスト間の偏りの少なくとも1つに基づいて、語句を変換し処理済みとする処理を、未選択の文字列がなくなるまで繰り返す、ことを特徴とする付記17から付記19までのいずれか1つに記載の関連性判定プログラム。
前記語句変換処理は、それぞれの集合内で2つ以上の仕様テキストに出現する閾値以上の長さの最長共通部分文字列を抽出し、抽出した文字列の集合内における偏りに基づいて語句を変換し処理済みとする処理を、未選択の文字列がなくなるまで繰り返す、ことを特徴とする付記17から付記19までおよび付記22のいずれか1つに記載の関連性判定プログラム。
前記仕様テキストは、仕様テキストの構造を示す構造情報と、仕様テキストの内容を示す仕様本文とに分割されており、
前記語句変換処理は、前記構造情報のテキストを変換し、
前記関連性計算処理は、前記変換された構造情報と前記仕様本文とを連結したテキストに基づいて、仕様テキスト間の関連性を計算する、
ことを特徴とする付記17から付記23までのいずれか1つに記載の関連性判定プログラム。
2 関連性判定システム
11 記憶部
12 計算部
21 記憶部
22 計算部
100 初期仕様記憶部
101 変換仕様記憶部
102 語句変換部
103 関連性計算部
200 語句変換部
Claims (10)
- システム開発における仕様テキスト間の関連性を判定するシステムであって、
2つの集合に分類された仕様テキストに対し、仕様テキストの語句の出現頻度の集合間における偏り、及びそれぞれの集合内における語句の出現頻度の仕様テキスト間における偏りの少なくとも1つに基づいて、不要語句を推定し、推定された不要語句に基づいて仕様テキストを変換する語句変換部と、
変換された仕様テキストに基づいて、集合間の個々の仕様テキスト間の関連性を計算する関連性計算部と、
を備えることを特徴とする関連性判定システム。 - 前記関連性計算部は、前記関連性を、コルモゴロフ複雑性の概算を用いて類似度として計算する、ことを特徴とする請求項1に記載の関連性判定システム。
- 前記語句変換部は、推定された不要語句を、予め定めた特殊記号に変換する、ことを特徴とする請求項1または2に記載の関連性判定システム。
- 前記語句変換部は、集合間における偏りとして、相互情報量、情報利得や情報利得比、カイ二乗統計量のいずれか1つまたはそれらの組合せを用い、集合間の偏りが予め定めた閾値より大きい語句を不要語句と推定する、ことを特徴とする請求項1乃至3のいずれか1項に記載の関連性判定システム。
- 前記語句変換部は、集合内における偏りとして、逆文書頻度を用い、集合内の偏りが予め定めた閾値より小さい語句を不要語句と推定する、ことを特徴とする請求項1乃至4のいずれか1項に記載の関連性判定システム。
- 前記語句変換部は、2つの集合間の仕様テキストの予め定めた閾値以上の長さの最長共通部分文字列を抽出し、抽出した文字列の集合間における偏り、及びそれぞれの集合内における仕様テキスト間の偏りの少なくとも1つに基づいて、語句を変換し処理済みとする処理を、未選択の文字列がなくなるまで繰り返す、ことを特徴とする請求項1乃至3のいずれか1項に記載の関連性判定システム。
- 前記語句変換部は、それぞれの集合内で2つ以上の仕様テキストに出現する閾値以上の長さの最長共通部分文字列を抽出し、抽出した文字列の集合内における偏りに基づいて、語句を変換し処理済みとする処理を、未選択の文字列がなくなるまで繰り返す、ことを特徴とする請求項1乃至3および6のいずれか1項に記載の関連性判定システム。
- 前記仕様テキストは、仕様テキストの構造を示す構造情報と、仕様テキストの内容を示す仕様本文とに分割されており、
前記語句変換部は、前記構造情報のテキストを変換し、
前記関連性計算部は、前記変換された構造情報と前記仕様本文とを連結したテキストに基づいて、仕様テキスト間の関連性を計算する、
ことを特徴とする請求項1乃至7のいずれか1項に記載の関連性判定システム。 - システム開発における仕様テキスト間の関連性を判定する方法であって、
語句変換部が、2つの集合に分類された仕様テキストに対し、仕様テキストの語句の出現頻度の集合間における偏り、及びそれぞれの集合内における語句の出現頻度の仕様テキスト間における偏りの少なくとも1つに基づいて不要語句を推定し、推定された不要語句に基づいて仕様テキストを変換する語句変換ステップと、
関連性計算部が、変換された仕様テキストに基づいて集合間の個々の仕様テキスト間の関連性を計算する関連性計算ステップと、
を備えることを特徴とする関連性判定方法。 - コンピュータに、システム開発における仕様テキスト間の関連性を判定させるプログラムであって、
2つの集合に分類された仕様テキストに対し、仕様テキストの語句の出現頻度の集合間における偏り、及びそれぞれの集合内における語句の出現頻度の仕様テキスト間における偏りの少なくとも1つに基づいて不要語句を推定し、推定された不要語句に基づいて仕様テキストを変換する語句変換処理と、
変換された仕様テキストに基づいて集合間の個々の仕様テキスト間の関連性を計算する関連性計算処理と、
を前記コンピュータに実行させる関連性判定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013108170A JP6172447B2 (ja) | 2013-05-22 | 2013-05-22 | 関連性判定システム、方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013108170A JP6172447B2 (ja) | 2013-05-22 | 2013-05-22 | 関連性判定システム、方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014229069A JP2014229069A (ja) | 2014-12-08 |
JP6172447B2 true JP6172447B2 (ja) | 2017-08-02 |
Family
ID=52128864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013108170A Active JP6172447B2 (ja) | 2013-05-22 | 2013-05-22 | 関連性判定システム、方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6172447B2 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3220885B2 (ja) * | 1993-06-18 | 2001-10-22 | 株式会社日立製作所 | キーワード付与システム |
JPH11259515A (ja) * | 1998-03-12 | 1999-09-24 | Toshiba Corp | 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体 |
JP2010055253A (ja) * | 2008-08-27 | 2010-03-11 | Fuji Xerox Co Ltd | 不要語決定装置及びプログラム |
JP5648336B2 (ja) * | 2009-12-15 | 2015-01-07 | 富士通株式会社 | 不整合検出装置、プログラム及び方法、修正支援装置、プログラム及び方法 |
WO2011129198A1 (ja) * | 2010-04-12 | 2011-10-20 | 日本電気株式会社 | 不整合検出システム、方法、およびプログラム |
WO2012124301A1 (ja) * | 2011-03-16 | 2012-09-20 | 日本電気株式会社 | 関連仕様対応付けシステム、関連仕様対応付け方法およびプログラム |
-
2013
- 2013-05-22 JP JP2013108170A patent/JP6172447B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014229069A (ja) | 2014-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8224641B2 (en) | Language identification for documents containing multiple languages | |
JP3973549B2 (ja) | 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体 | |
US20080104506A1 (en) | Method for producing a document summary | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
US20090083255A1 (en) | Query spelling correction | |
JP2020126493A (ja) | 対訳処理方法および対訳処理プログラム | |
JP2005174336A (ja) | 情報抽出のための一般化文字列パターンの学習および使用 | |
JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
JP6260791B2 (ja) | 要求間矛盾判定システム、要求間矛盾判定方法、および、要求間矛盾判定プログラム | |
JP4237813B2 (ja) | 構造化文書管理システム | |
CN106933824A (zh) | 在多个文档中确定与目标文档相似的文档集合的方法和装置 | |
US20100125448A1 (en) | Automated identification of documents as not belonging to any language | |
JP6476886B2 (ja) | キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム | |
US20060248037A1 (en) | Annotation of inverted list text indexes using search queries | |
JP2008117351A (ja) | 検索システム | |
WO2009113289A1 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
Fatima et al. | STEMUR: An automated word conflation algorithm for the Urdu language | |
JP6172447B2 (ja) | 関連性判定システム、方法、およびプログラム | |
JP2010272006A (ja) | 関係抽出装置、関係抽出方法、及びプログラム | |
JP4734400B2 (ja) | 文書検索装置およびプログラム | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP2020060981A (ja) | ノード探索方法及びノード探索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20151218 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160408 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170201 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170327 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170620 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6172447 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |