JP4845575B2 - 類似性評価装置及びプログラム - Google Patents

類似性評価装置及びプログラム Download PDF

Info

Publication number
JP4845575B2
JP4845575B2 JP2006110791A JP2006110791A JP4845575B2 JP 4845575 B2 JP4845575 B2 JP 4845575B2 JP 2006110791 A JP2006110791 A JP 2006110791A JP 2006110791 A JP2006110791 A JP 2006110791A JP 4845575 B2 JP4845575 B2 JP 4845575B2
Authority
JP
Japan
Prior art keywords
similarity
japanese sentence
partial structure
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006110791A
Other languages
English (en)
Other versions
JP2007286721A (ja
Inventor
一郎 山田
菊佳 三浦
英樹 住吉
伸行 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2006110791A priority Critical patent/JP4845575B2/ja
Publication of JP2007286721A publication Critical patent/JP2007286721A/ja
Application granted granted Critical
Publication of JP4845575B2 publication Critical patent/JP4845575B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、電子化されたテキストデータを対象とした情報抽出及び自然言語処理に関し、特に、2つの日本語文の類似性を評価する技術に関する。
現在、放送局では、番組情報を蓄積及び管理するシステムが普及しており、このシステムにより蓄積された番組情報が公開されたり、他の番組制作のために利用されたりしている。しかしながら、これらの蓄積情報は十分に活用されていないのが現状である。そこで、蓄積された番組情報の有効活用を図るための研究や開発が進められている。
例えば、番組のナレーションや字幕等のデータ(番組データ)を用いて番組中の重要な映像カットを抽出し、番組の要約を生成する技術が提案されている(非特許文献1を参照)。これは、番組中の映像カットを抽出するために、2つの日本語文に含まれる単語がどの程度類似しているかを指標とし、2つの文の類似性を評価するものである。この2つの文の類似性を評価する手法は、文の主動詞の類似性及び動詞の格構造に入る名詞の類似性を評価することにより、文全体の類似性を評価するものである。
また、2つの類似性を評価する他の手法として、比較する2つの文に共通する単語の数(共通単語数)を算出し、その割合によって類似性を評価することが考えられる。
山田一郎、住吉英樹、金淵培、柴田正啓、"シーン記述文の類似性を用いた番組自動要約システム"、信学技報、NLC97−59、pp23−30、1998年3月
しかしながら、2つの日本語文の類似性を評価する場合に、前述の非特許文献1の手法では、構文情報の特徴を抽出するに際し、構文情報のうちの動詞の格構造のみを利用しているに過ぎないから、部分的な特徴しか抽出することができず、類似性評価の結果に誤りが生じる可能性があった。この場合、文全体の特徴も抽出して類似性を評価することが望ましい。
また、前述の、共通単語数の割合によって類似性を評価する手法では、文の構造を考慮していないから、類似性評価の結果に誤りが多くなるという問題があった。
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、比較する日本語文全体の特徴を考慮することにより、類似性評価の結果の信頼性を向上させることが可能な類似性評価装置及びプログラムを提供することにある。
上記課題を解決するため、本発明による類似性評価装置は、第1の日本語文と第2の日本語文との間の類似性を評価する類似性評価装置において、第1の日本語文及び第2の日本語文から、単語をノードとした係り受け関係を示す木構造をそれぞれ生成する木構造生成部と、該木構造生成部により生成された第1の日本語文の木構造について、末端の葉ノードを構成する2つの単語を抽出し、該2つの単語間のパスを部分構造として生成すると共に、前記第2の日本語文の木構造について、自立語である2つの単語を抽出し、該2つの単語間のパスを部分構造として生成する部分構造生成部と、該部分構造生成部により生成された第1の日本語文の部分構造と第2の日本語文の部分構造との間の構文上の類似度を算出し、前記第1の日本語文の部分構造と第2の日本語の部分構造との間の前記抽出した単語の類似度を算出し、前記第1の日本語文の部分構造と第2の日本語の部分構造との間の類似度を、前記構文上の類似度及び単語の類似度に基づいて算出する部分構造類似度算出部と、該部分構造類似度算出部により算出された部分構造間の類似度に基づいて、前記第1の日本語文と第2の日本語文との間の類似度を算出する文類似度算出部とを備えたことを特徴とする。
また、前記部分構造類似度算出部は、部分構造間の構文上の類似度を、各部分構造における単語の数及び部分構造間で共通する単語の数に基づいて算出し、前記部分構造間の単語の類似度を、各木構造における単語の階層位置に基づいて算出することが好適である。
本発明を類似性評価装置として説明したが、本発明はこの類似性評価装置を構成するコンピュータによって実行されるプログラムとしても実質的に実現し得るものであり、本発明には、類似性評価プログラムも含まれる。すなわち、本発明による類似性評価プログラムは、第1の日本語文と第2の日本語文との間の類似性を評価する装置による類似性評価プログラムであって、前記装置を構成するコンピュータに、第1の日本語文及び第2の日本語文から、単語をノードとした係り受け関係を示す木構造をそれぞれ生成する処理と、前記第1の日本語文の木構造について、末端の葉ノードを構成する2つの単語を抽出し、該2つの単語間のパスを部分構造として生成する処理と、前記第2の日本語文の木構造について、自立語である2つの単語を抽出し、該2つの単語間のパスを部分構造として生成する処理と、前記第1の日本語文の部分構造と第2の日本語文の部分構造との間の構文上の類似度を算出する処理と、前記第1の日本語文の部分構造と第2の日本語の部分構造との間の前記抽出した単語の類似度を算出する処理と、前記第1の日本語文の部分構造と第2の日本語の部分構造との間の類似度を、前記構文上の類似度及び単語の類似度に基づいて算出する処理と、前記部分構造間の類似度に基づいて、第1の日本語文と第2の日本語文との間の類似度を算出する処理とを実行させることを特徴とする。
以上のように、本発明によれば、比較する日本語文全体の特徴を考慮して類似性を評価するようにしたから、日本語文の部分的な特徴を考慮して類似性を評価する場合に比べて、その信頼性の向上を図ることが可能となる。
以下、本発明を実施するための最良の形態について図面を用いて詳細に説明する。
〔構成〕
まず、本発明の実施の形態による類似性評価装置の構成について説明する。図1は、類似性評価装置の構成を示すブロック図である。この類似性評価装置1は、木構造生成部2、部分構造生成部3、部分構造評価部4、文評価部5及び記憶部6,7を備えており、記憶部6に格納された日本語文(以下、入力日本語文という。)と、記憶部7に格納された日本語文(以下、対象日本語文という)との間の類似性を評価する。
木構造生成部2は、記憶部6から入力日本語文を、記憶部7から対象日本語文をそれぞれ読み出し、既存の形態素解析装置・構文解析装置により、読み出した日本語文を一文毎に構文解析し、文節をノードとした木構造をそれぞれ生成する(図3(A)及び図4(A)を参照、詳細は後述する)。尚、この構文解析手法は既知であるため、ここでは説明を省略する。詳細については、「工藤他、“チャンキングの段階適用による係り受け解析”、情処論、Vol.43、No.6、pp.1834−1842(2002)」の文献を参照されたい。また、木構造生成部2は、入力日本語及び対象日本語文の木構造に対して、文節に含まれる主辞と助詞等の付属語とを分けてノードとし、新たな木構造をそれぞれ生成する(図3(B)及び図4(B)を参照、詳細は後述する)。
部分構造生成部3は、木構造生成部2により生成された新たな木構造をそれぞれ入力し、部分構造(部分木)を生成する。具体的には、入力日本語文の木構造においては、葉ノードにある単語のペアを抽出し、この単語ペアを葉ノードとして、単語ペアと共通係り先(両単語が共通して係り受ける関係のあるノード)との間のパスの構造を生成する。この構造を部分構造とする。また、対象日本語文の木構造においては、その対象日本語文に含まれる全ての単語ペアを抽出し、この単語ペア間のパスや単語ペアと共通係り先との間のパスの構造を生成する。この構造を部分構造とする。これにより、入力日本語文の部分構造、及び対象日本語文の部分構造が生成される。
部分構造評価部4は、部分構造生成部3により生成された入力日本語文の部分構造及び対象日本語文の部分構造を入力し、これらの部分構造間の類似性を評価する。
文評価部5は、部分構造評価部4により評価された類似性の値(類似度)を入力し、入力日本語文と対象日本語文との間の類似性を評価する。
〔動作〕
次に、図1に示した類似性評価装置1の動作について説明する。図2は、類似性評価装置1の処理を説明するフローチャート図である。類似性評価装置1の木構造生成部2は、まず、記憶部6から入力日本語文を読み出して構文解析し、木構造を生成する(ステップS2−1)。図3(A)及び(B)は、入力日本語文の木構造の例を示す図である。木構造生成部2は、構文解析により、文節(ノード)単位の係り受け関係を抽出し、図3(A)に示すような木構造を抽出する。この場合、例えば「そこで」と「徹底調査」との間に係り受け関係がある。そして、文節に含まれる主辞と助詞等の付属語との間にも係り受け関係があるとし、主辞が付属語に係るとして形態素単位の係り受けを明示した木構造を、図3(B)のように生成する。
また、木構造生成部2は、記憶部7から対象日本語文を読み出して構文解析し、木構造を生成する(ステップS2−3)。図4(A)及び(B)は、対象日本語文の木構造の例を示す図である。木構造生成部2は、前述の入力日本語文の場合と同じように、文節単位の係り受け関係を抽出し、図4(A)に示すように木構造を抽出する。そして、前述の入力日本語文の場合と同じように、図4(B)のように木構造を生成する。
部分構造生成部3は、入力日本語文について、木構造生成部2により生成された木構造から葉ノードの単語を取り出し、その単語のペアを抽出する。そして、その単語ペアからその共通係り先までのパスとなる木構造を、構文木の部分構造として、図3(C)のように生成する(ステップS2−2)。ここで、葉ノードの単語のペアは、図3(B)において「そこで」「ガッテン」「唾液」のうちの2つの単語の組み合わせである。
また、部分構造生成部3は、対象日本語文について、木構造生成部2により生成された木構造から、自立語の全ての単語ペアを抽出し、その2つの単語間のパス及び2つの単語からその共通係り先までのパスとなる木構造を、構文木における部分構造として、図4(C)のように生成する(ステップS2−4)。ここで、部分構造生成部3により抽出される単語ペアは、図4(B)において、「そこで」「きょう」「メカニズム」「痛風」「徹底研究」のうちの2つの単語の組み合わせである。
尚、部分構造生成部3は、入力日本語文及び対象日本語文について、部分構造を生成する際に、名詞のみを対象として単語ペアを抽出するようにしてもよい。これにより、計算効率を向上させることができる。この場合、入力日本語文については、葉ノードに最も近い名詞が対象とし、対象日本語文については、全ての名詞を対象とする。
部分構造評価部4は、部分構造生成部3により生成された、入力日本語文における構文木の部分構造と、対象日本語文における構文木の部分構造との間の類似性を評価する(ステップS2−5)。図5は、部分構造評価部4による部分構造の類似性評価処理手順を示すフローチャート図である。以下、入力日本語文における全ての単語ペアの部分構造と、対象日本語文における全ての単語ペアの部分構造との間の類似性の評価を説明する。まず、部分構造評価部4は、入力日本語文における一つの単語ペアの部分構造と、対象日本語文における一つの単語ペアの部分構造との間の比較処理において、入力日本語文について全ての単語ペアの比較処理が完了したか否かを判定する(ステップS5−1)。全ての単語ペアの比較処理が完了していない場合は、比較処理が完了していない入力日本語文の単語ペアから一つの単語ペアを選択する(ステップS5−2)。そして、対象日本語文について全ての単語ペアの比較処理が完了したか否かを判定する(ステップS5−3)。全ての単語ペアの比較処理が完了していない場合は、比較処理が完了していない対象日本語文の単語ペアから一つの単語ペアを選択する(ステップS5−4)。
部分構造評価部4は、ステップ5−2,5−4において選択した単語ペアを対象として、部分構造間の構文上の類似度を判定する(ステップS5−5)。具体的には、選択した入力日本語文の単語ペアを「単語1−1」「単語1−2」とし、選択した対象日本語文の単語ペアを「単語2−1」「単語2−2」とした場合に、「単語1−1」から当該「単語1−1」と「単語1−2」との間の共通係り先までのパス上にある単語を抽出し、「単語2−1」から当該「単語2−1」と「単語2−2」との間の共通係り先までのパス上にある単語を抽出する。そして、抽出した単語間を比較し、その共通する単語の数をカウントする。同様に、「単語1−2」から当該「単語1−2」と「単語1−1」との間の共通係り先までのパス上にある単語を抽出し、「単語2−2」から当該「単語2−2」と「単語2−1」との間の共通係り先までのパス上にある単語を抽出する。そして、抽出した単語間を比較し、その共通する単語の数をカウントする。
例えば、図3(C)に示した入力日本語文における「ガッテンが唾液の秘密を徹底調査」の部分構造と、図4(C)に示した対象日本語文における「きょうは痛風のメカニズムを徹底研究」の部分構造とを比較処理する場合、「単語1−1」に相当する「ガッテン」から、当該「ガッテン」と「単語1−2」に相当する「唾液」との間の共通係り先「徹底調査」までのパス上にある単語「が」を抽出し、「単語2−1」に相当する「きょう」から、当該「きょう」と「単語2−2」に相当する「痛風」との間の共通係り先「徹底研究」までのパス上にある単語「は」を抽出し、抽出した単語間を比較し、その共通する単語の数は0となる。同様に、「単語1−2」に相当する「唾液」から、当該「唾液」と「単語1−1」に相当する「ガッテン」との間の共通係り先「徹底調査」までのパス上にある単語「の」「秘密」「を」を抽出し、「単語2−2」に相当する「痛風」から、当該「痛風」と「単語2−1」に相当する「きょう」との間の共通係り先「徹底研究」までのパス上にある単語「の」「メカニズム」「を」を抽出し、抽出した単語間を比較し、その共通する単語「の」「を」の数は2となる。
部分構造評価部4は、カウントした共通単語数を用いて、部分構造間の構文上の類似度sim_structure(p,p)を、以下の式で判定する。
Figure 0004845575

wc(p)は、対象としている単語対pの対象単語から共通係り先までのパス上にある単語数の和を示す。前述の例では、単語対pにおける単語数の和は1+3=4、単語対pにおける単語数の和は1+3=4である。com(p,p)は共通単語数を示し、前述の例では2となる。したがって、前述の例では、部分構造間の構文上の類似度は、sim_structure(p,p)=2×2/(4+4)=0.5となる。
図5に戻って、次に、部分構造評価部4は、部分構造間の単語ペアの類似性、及び共通係り先の単語の類似度を判定する(ステップS5−6)。具体的には、単語間の類似度sim_word(w,w)は、分類語彙表を利用して、以下の式による算出される。
sim_word(w,w)=d×2/(d+d
ここで、d,dは共通係り受け先から単語までのそれぞれの距離(深さ)を示し、dはそれらの共通の上位語の深さを示す。尚、この単語間の類似性の評価手法は既知であるため、ここでは詳細な説明を省略する。詳細については、前述した非特許文献1を参照されたい。
そして、部分構造評価部4は、部分構造間の構文上の類似度及び単語ペア間等の類似度を用いて、部分構造間の類似度を判定する(ステップS5−7)。具体的には、部分構造間の類似度sim(p,p)は、以下の式により算出される。
Figure 0004845575

ここで、sim_word(w1−1,w2−1),sim_word(w1−2,w2−2)は単語ペアの類似度を、sim_word(w1−3,w2−3)は共通係り先の単語の類似度を示す。
例えば、前述の例では、sim_word(ガッテン,きょう)=0.01、sim_word(唾液,痛風)=0.1、sim_word(徹底調査,徹底研究)=0.79としたとき、sim(p,p)=0.5×(0.01+0.1+0.79)/3=0.15になる。そして、ステップ5−3へ戻る。
ステップ5−3において、対象日本語文について全ての単語ペアの比較処理が完了した場合は、入力日本語文についての一つの単語ペアと対象日本語文についての全ての単語ペアとのそれぞれの比較処理が完了したことになり、それぞれの比較処理により得られた部分構造間の類似度のうちの最大の類似度を、入力日本語文についての一つの単語ペアにおける(が持つ)対象日本語文に対する類似度に設定する(ステップS5−8)。そして、ステップ5−1へ戻る。
ステップ5−1において、入力日本語文についての全ての単語ペアの比較処理が完了した場合は、処理を終了する。これにより、部分構造評価部4は、入力日本語文から抽出された全ての単語ペアにおける(が持つ)対象日本語文に対する類似度の値を算出したことになる。
図2に戻って、文評価部5は、部分構造評価部4により評価された、入力日本語文から抽出された全ての単語ペアが持つ対象日本語文に対する類似度の値を入力し、以下の式により、入力日本語文sと対象日本語文sとの間の類似性を評価する(ステップS2−6)。具体的には、以下に示す類似度sim(s,s)を算出する。
Figure 0004845575

ここで、count(s)は、文sに含まれる単語ペアの数を表す。同様にして、文評価部5は、入力日本語文sと他の対象日本語文s,s・・・との間の類似度sim(s,s),sim(s,s),・・・を算出し、この値の降順に、入力日本語文と対象日本語文が類似しているものと判断する。
以上のように、本発明の実施の形態による類似性評価装置1によれば、文評価部5が、入力日本語文と対象日本語文との間の類似性の評価を、部分構造間の構造上の類似度及び単語ペア間等の類似度から算出した部分構造間の類似度に基づいて行い、類似度の値として算出するようにした。これにより、日本語文の類似性を定量的に評価することができる。この場合、入力日本語文と対象日本語文との間の類似性は、日本語文全体の特徴を考慮して評価されるから、日本語文の部分的な特徴のみを考慮して類似性を評価する場合に比べて、その信頼性の向上を図ることが可能となる。さらに、例えば、番組データを用いて番組中の重要な映像カットを抽出し、番組の要約を生成する場合には、映像カットを抽出するときに必要な日本語文間の類似性について、信頼性の高い結果を得ることができる。これにより、正確な映像カットを抽出することができる。すなわち、類似性評価装置1を利用することにより、蓄積された番組情報を有効に活用することが可能となる。
また、本発明の実施の形態による類似性評価装置1によれば、部分構造評価部4が、部分構造間の類似性の評価を類似度として算出するようにした。これにより、部分構造評価部4による処理を、日本語文から典型的な表現を抽出する際に利用することができる。
尚、類似性評価装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。類似性評価装置1に備えた木構造生成部2、部分構造生成部3、部分構造評価部4及び文評価部5の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク(フロッピィーディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもできる。
以上、実施の形態を挙げて本発明を説明したが、本発明は上記実施の形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、図1に示した類似性評価装置1は、1台のコンピュータ装置により構成されるが、これに限定されるものではなく、例えば、木構造生成部2、部分構造生成部3、部分構造評価部4及び文評価部5を備えたコンピュータと、記憶部6,7を備えたコンピュータを別々に設け、これらのコンピュータを、ネットワークを介して接続するように構成してもよい。
本発明の実施の形態による類似性評価装置の構成を示すブロック図である。 図1の類似性評価装置の処理を説明するフローチャート図である。 入力日本語文の木構造及び部分構造の例を示す図である。 対象日本語文の木構造及び部分構造の例を示す図である。 図1の部分構造評価部の処理を説明するフローチャート図である。
符号の説明
1 類似性評価装置
2 木構造生成部
3 部分構造生成部
4 部分構造評価部
5 文評価部
6,7 記憶部

Claims (3)

  1. 第1の日本語文と第2の日本語文との間の類似性を評価する類似性評価装置において、
    第1の日本語文及び第2の日本語文から、単語をノードとした係り受け関係を示す木構造をそれぞれ生成する木構造生成部と、
    該木構造生成部により生成された第1の日本語文の木構造について、末端の葉ノードを構成する2つの単語を抽出し、該2つの単語間のパスを部分構造として生成すると共に、前記第2の日本語文の木構造について、自立語である2つの単語を抽出し、該2つの単語間のパスを部分構造として生成する部分構造生成部と、
    該部分構造生成部により生成された第1の日本語文の部分構造と第2の日本語文の部分構造との間の構文上の類似度を算出し、
    前記第1の日本語文の部分構造と第2の日本語の部分構造との間の前記抽出した単語の類似度を算出し、
    前記第1の日本語文の部分構造と第2の日本語の部分構造との間の類似度を、前記構文上の類似度及び単語の類似度に基づいて算出する部分構造類似度算出部と、
    該部分構造類似度算出部により算出された部分構造間の類似度に基づいて、前記第1の日本語文と第2の日本語文との間の類似度を算出する文類似度算出部とを備えたことを特徴とする類似性評価装置。
  2. 請求項1に記載の類似性評価装置において、
    前記部分構造類似度算出部は、
    前記部分構造間の構文上の類似度を、各部分構造における単語の数及び部分構造間で共通する単語の数に基づいて算出し、
    前記部分構造間の単語の類似度を、各木構造における単語の階層位置に基づいて算出することを特徴とする類似性評価装置。
  3. 第1の日本語文と第2の日本語文との間の類似性を評価する装置による類似性評価プログラムであって、前記装置を構成するコンピュータに、
    第1の日本語文及び第2の日本語文から、単語をノードとした係り受け関係を示す木構造をそれぞれ生成する処理と、
    前記第1の日本語文の木構造について、末端の葉ノードを構成する2つの単語を抽出し、該2つの単語間のパスを部分構造として生成する処理と、
    前記第2の日本語文の木構造について、自立語である2つの単語を抽出し、該2つの単語間のパスを部分構造として生成する処理と、
    前記第1の日本語文の部分構造と第2の日本語文の部分構造との間の構文上の類似度を算出する処理と、
    前記第1の日本語文の部分構造と第2の日本語の部分構造との間の前記抽出した単語の類似度を算出する処理と、
    前記第1の日本語文の部分構造と第2の日本語の部分構造との間の類似度を、前記構文上の類似度及び単語の類似度に基づいて算出する処理と、
    前記部分構造間の類似度に基づいて、第1の日本語文と第2の日本語文との間の類似度を算出する処理とを実行させる類似性評価プログラム。
JP2006110791A 2006-04-13 2006-04-13 類似性評価装置及びプログラム Expired - Fee Related JP4845575B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006110791A JP4845575B2 (ja) 2006-04-13 2006-04-13 類似性評価装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006110791A JP4845575B2 (ja) 2006-04-13 2006-04-13 類似性評価装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2007286721A JP2007286721A (ja) 2007-11-01
JP4845575B2 true JP4845575B2 (ja) 2011-12-28

Family

ID=38758457

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006110791A Expired - Fee Related JP4845575B2 (ja) 2006-04-13 2006-04-13 類似性評価装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4845575B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009199280A (ja) * 2008-02-21 2009-09-03 Hitachi Ltd 部分構文木プロファイルを用いた類似性検索システム
JP5373439B2 (ja) * 2009-03-09 2013-12-18 株式会社野村総合研究所 著作物比較システム
CN111898343B (zh) * 2020-08-03 2023-07-14 北京师范大学 一种基于短语结构树的相似题目识别方法和系统

Also Published As

Publication number Publication date
JP2007286721A (ja) 2007-11-01

Similar Documents

Publication Publication Date Title
Cohn et al. Sentence compression as tree transduction
RU2607975C2 (ru) Построение корпуса сравнимых документов на основе универсальной меры похожести
RU2610241C2 (ru) Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
CN108614898A (zh) 文档解析方法与装置
JP2009543255A (ja) パラレル・データを特定するために階層的かつ順次的なドキュメント・ツリーを対応付けること
JP2004199427A (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
JP2003196274A (ja) 構文解析方法及び装置
Candito et al. Parsing word clusters
Chowdhury et al. A study on dependency tree kernels for automatic extraction of protein-protein interaction
JP2009015512A (ja) 機械翻訳を行う装置、方法およびプログラム
JP2005174336A (ja) 情報抽出のための一般化文字列パターンの学習および使用
Shahbazi et al. Extended subtree: a new similarity function for tree structured data
Verma et al. Generation of test cases from software requirements using natural language processing
JP4845575B2 (ja) 類似性評価装置及びプログラム
Kato et al. BERT-based simplification of Japanese sentence-ending predicates in descriptive text
US7302384B2 (en) Left-corner chart parsing
Zhou et al. Context-sensitive convolution tree kernel for pronoun resolution
Cuculovic et al. Semantics to the rescue of document‐based XML diff: A JATS case study
JP4476609B2 (ja) 中国語解析装置、中国語解析方法および中国語解析プログラム
KR20210146832A (ko) 토픽 키워드의 추출 장치 및 방법
JP2009140411A (ja) 文章要約装置および文章要約方法
JP6907703B2 (ja) 解析装置、解析方法、および解析プログラム
Sineva et al. Negation-instance based evaluation of end-to-end negation resolution
Gómez‐Rodríguez et al. Undirected dependency parsing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110920

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111011

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141021

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees