JP4845575B2 - 類似性評価装置及びプログラム - Google Patents
類似性評価装置及びプログラム Download PDFInfo
- Publication number
- JP4845575B2 JP4845575B2 JP2006110791A JP2006110791A JP4845575B2 JP 4845575 B2 JP4845575 B2 JP 4845575B2 JP 2006110791 A JP2006110791 A JP 2006110791A JP 2006110791 A JP2006110791 A JP 2006110791A JP 4845575 B2 JP4845575 B2 JP 4845575B2
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- japanese sentence
- partial structure
- words
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
〔構成〕
まず、本発明の実施の形態による類似性評価装置の構成について説明する。図1は、類似性評価装置の構成を示すブロック図である。この類似性評価装置1は、木構造生成部2、部分構造生成部3、部分構造評価部4、文評価部5及び記憶部6,7を備えており、記憶部6に格納された日本語文(以下、入力日本語文という。)と、記憶部7に格納された日本語文(以下、対象日本語文という)との間の類似性を評価する。
次に、図1に示した類似性評価装置1の動作について説明する。図2は、類似性評価装置1の処理を説明するフローチャート図である。類似性評価装置1の木構造生成部2は、まず、記憶部6から入力日本語文を読み出して構文解析し、木構造を生成する(ステップS2−1)。図3(A)及び(B)は、入力日本語文の木構造の例を示す図である。木構造生成部2は、構文解析により、文節(ノード)単位の係り受け関係を抽出し、図3(A)に示すような木構造を抽出する。この場合、例えば「そこで」と「徹底調査」との間に係り受け関係がある。そして、文節に含まれる主辞と助詞等の付属語との間にも係り受け関係があるとし、主辞が付属語に係るとして形態素単位の係り受けを明示した木構造を、図3(B)のように生成する。
wc(pi)は、対象としている単語対piの対象単語から共通係り先までのパス上にある単語数の和を示す。前述の例では、単語対p1における単語数の和は1+3=4、単語対p2における単語数の和は1+3=4である。com(p1,p2)は共通単語数を示し、前述の例では2となる。したがって、前述の例では、部分構造間の構文上の類似度は、sim_structure(p1,p2)=2×2/(4+4)=0.5となる。
sim_word(w1,w2)=dc×2/(di+dj)
ここで、di,djは共通係り受け先から単語までのそれぞれの距離(深さ)を示し、dcはそれらの共通の上位語の深さを示す。尚、この単語間の類似性の評価手法は既知であるため、ここでは詳細な説明を省略する。詳細については、前述した非特許文献1を参照されたい。
ここで、sim_word(w1−1,w2−1),sim_word(w1−2,w2−2)は単語ペアの類似度を、sim_word(w1−3,w2−3)は共通係り先の単語の類似度を示す。
ここで、count(s1)は、文s1に含まれる単語ペアの数を表す。同様にして、文評価部5は、入力日本語文s1と他の対象日本語文s3,s4・・・との間の類似度sim(s1,s3),sim(s1,s4),・・・を算出し、この値の降順に、入力日本語文と対象日本語文が類似しているものと判断する。
2 木構造生成部
3 部分構造生成部
4 部分構造評価部
5 文評価部
6,7 記憶部
Claims (3)
- 第1の日本語文と第2の日本語文との間の類似性を評価する類似性評価装置において、
第1の日本語文及び第2の日本語文から、単語をノードとした係り受け関係を示す木構造をそれぞれ生成する木構造生成部と、
該木構造生成部により生成された第1の日本語文の木構造について、末端の葉ノードを構成する2つの単語を抽出し、該2つの単語間のパスを部分構造として生成すると共に、前記第2の日本語文の木構造について、自立語である2つの単語を抽出し、該2つの単語間のパスを部分構造として生成する部分構造生成部と、
該部分構造生成部により生成された第1の日本語文の部分構造と第2の日本語文の部分構造との間の構文上の類似度を算出し、
前記第1の日本語文の部分構造と第2の日本語の部分構造との間の前記抽出した単語の類似度を算出し、
前記第1の日本語文の部分構造と第2の日本語の部分構造との間の類似度を、前記構文上の類似度及び単語の類似度に基づいて算出する部分構造類似度算出部と、
該部分構造類似度算出部により算出された部分構造間の類似度に基づいて、前記第1の日本語文と第2の日本語文との間の類似度を算出する文類似度算出部とを備えたことを特徴とする類似性評価装置。 - 請求項1に記載の類似性評価装置において、
前記部分構造類似度算出部は、
前記部分構造間の構文上の類似度を、各部分構造における単語の数及び部分構造間で共通する単語の数に基づいて算出し、
前記部分構造間の単語の類似度を、各木構造における単語の階層位置に基づいて算出することを特徴とする類似性評価装置。 - 第1の日本語文と第2の日本語文との間の類似性を評価する装置による類似性評価プログラムであって、前記装置を構成するコンピュータに、
第1の日本語文及び第2の日本語文から、単語をノードとした係り受け関係を示す木構造をそれぞれ生成する処理と、
前記第1の日本語文の木構造について、末端の葉ノードを構成する2つの単語を抽出し、該2つの単語間のパスを部分構造として生成する処理と、
前記第2の日本語文の木構造について、自立語である2つの単語を抽出し、該2つの単語間のパスを部分構造として生成する処理と、
前記第1の日本語文の部分構造と第2の日本語文の部分構造との間の構文上の類似度を算出する処理と、
前記第1の日本語文の部分構造と第2の日本語の部分構造との間の前記抽出した単語の類似度を算出する処理と、
前記第1の日本語文の部分構造と第2の日本語の部分構造との間の類似度を、前記構文上の類似度及び単語の類似度に基づいて算出する処理と、
前記部分構造間の類似度に基づいて、第1の日本語文と第2の日本語文との間の類似度を算出する処理とを実行させる類似性評価プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006110791A JP4845575B2 (ja) | 2006-04-13 | 2006-04-13 | 類似性評価装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006110791A JP4845575B2 (ja) | 2006-04-13 | 2006-04-13 | 類似性評価装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007286721A JP2007286721A (ja) | 2007-11-01 |
JP4845575B2 true JP4845575B2 (ja) | 2011-12-28 |
Family
ID=38758457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006110791A Expired - Fee Related JP4845575B2 (ja) | 2006-04-13 | 2006-04-13 | 類似性評価装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4845575B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009199280A (ja) * | 2008-02-21 | 2009-09-03 | Hitachi Ltd | 部分構文木プロファイルを用いた類似性検索システム |
JP5373439B2 (ja) * | 2009-03-09 | 2013-12-18 | 株式会社野村総合研究所 | 著作物比較システム |
CN111898343B (zh) * | 2020-08-03 | 2023-07-14 | 北京师范大学 | 一种基于短语结构树的相似题目识别方法和系统 |
-
2006
- 2006-04-13 JP JP2006110791A patent/JP4845575B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007286721A (ja) | 2007-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cohn et al. | Sentence compression as tree transduction | |
RU2607975C2 (ru) | Построение корпуса сравнимых документов на основе универсальной меры похожести | |
RU2610241C2 (ru) | Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
CN108614898A (zh) | 文档解析方法与装置 | |
JP2009543255A (ja) | パラレル・データを特定するために階層的かつ順次的なドキュメント・ツリーを対応付けること | |
JP2004199427A (ja) | 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体 | |
JP2003196274A (ja) | 構文解析方法及び装置 | |
Candito et al. | Parsing word clusters | |
Chowdhury et al. | A study on dependency tree kernels for automatic extraction of protein-protein interaction | |
JP2009015512A (ja) | 機械翻訳を行う装置、方法およびプログラム | |
JP2005174336A (ja) | 情報抽出のための一般化文字列パターンの学習および使用 | |
Shahbazi et al. | Extended subtree: a new similarity function for tree structured data | |
Verma et al. | Generation of test cases from software requirements using natural language processing | |
JP4845575B2 (ja) | 類似性評価装置及びプログラム | |
Kato et al. | BERT-based simplification of Japanese sentence-ending predicates in descriptive text | |
US7302384B2 (en) | Left-corner chart parsing | |
Zhou et al. | Context-sensitive convolution tree kernel for pronoun resolution | |
Cuculovic et al. | Semantics to the rescue of document‐based XML diff: A JATS case study | |
JP4476609B2 (ja) | 中国語解析装置、中国語解析方法および中国語解析プログラム | |
KR20210146832A (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP2009140411A (ja) | 文章要約装置および文章要約方法 | |
JP6907703B2 (ja) | 解析装置、解析方法、および解析プログラム | |
Sineva et al. | Negation-instance based evaluation of end-to-end negation resolution | |
Gómez‐Rodríguez et al. | Undirected dependency parsing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110920 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111011 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141021 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |