JP4845575B2

JP4845575B2 - 類似性評価装置及びプログラム

Info

Publication number: JP4845575B2
Application number: JP2006110791A
Authority: JP
Inventors: 一郎山田; 菊佳三浦; 英樹住吉; 伸行八木
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2006-04-13
Filing date: 2006-04-13
Publication date: 2011-12-28
Anticipated expiration: 2026-04-13
Also published as: JP2007286721A

Description

本発明は、電子化されたテキストデータを対象とした情報抽出及び自然言語処理に関し、特に、２つの日本語文の類似性を評価する技術に関する。

現在、放送局では、番組情報を蓄積及び管理するシステムが普及しており、このシステムにより蓄積された番組情報が公開されたり、他の番組制作のために利用されたりしている。しかしながら、これらの蓄積情報は十分に活用されていないのが現状である。そこで、蓄積された番組情報の有効活用を図るための研究や開発が進められている。

例えば、番組のナレーションや字幕等のデータ（番組データ）を用いて番組中の重要な映像カットを抽出し、番組の要約を生成する技術が提案されている（非特許文献１を参照）。これは、番組中の映像カットを抽出するために、２つの日本語文に含まれる単語がどの程度類似しているかを指標とし、２つの文の類似性を評価するものである。この２つの文の類似性を評価する手法は、文の主動詞の類似性及び動詞の格構造に入る名詞の類似性を評価することにより、文全体の類似性を評価するものである。

また、２つの類似性を評価する他の手法として、比較する２つの文に共通する単語の数（共通単語数）を算出し、その割合によって類似性を評価することが考えられる。

山田一郎、住吉英樹、金淵培、柴田正啓、"シーン記述文の類似性を用いた番組自動要約システム"、信学技報、ＮＬＣ９７−５９、ｐｐ２３−３０、１９９８年３月

しかしながら、２つの日本語文の類似性を評価する場合に、前述の非特許文献１の手法では、構文情報の特徴を抽出するに際し、構文情報のうちの動詞の格構造のみを利用しているに過ぎないから、部分的な特徴しか抽出することができず、類似性評価の結果に誤りが生じる可能性があった。この場合、文全体の特徴も抽出して類似性を評価することが望ましい。

また、前述の、共通単語数の割合によって類似性を評価する手法では、文の構造を考慮していないから、類似性評価の結果に誤りが多くなるという問題があった。

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、比較する日本語文全体の特徴を考慮することにより、類似性評価の結果の信頼性を向上させることが可能な類似性評価装置及びプログラムを提供することにある。

上記課題を解決するため、本発明による類似性評価装置は、第１の日本語文と第２の日本語文との間の類似性を評価する類似性評価装置において、第１の日本語文及び第２の日本語文から、単語をノードとした係り受け関係を示す木構造をそれぞれ生成する木構造生成部と、該木構造生成部により生成された第１の日本語文の木構造について、末端の葉ノードを構成する２つの単語を抽出し、該２つの単語間のパスを部分構造として生成すると共に、前記第２の日本語文の木構造について、自立語である２つの単語を抽出し、該２つの単語間のパスを部分構造として生成する部分構造生成部と、該部分構造生成部により生成された第１の日本語文の部分構造と第２の日本語文の部分構造との間の構文上の類似度を算出し、前記第１の日本語文の部分構造と第２の日本語の部分構造との間の前記抽出した単語の類似度を算出し、前記第１の日本語文の部分構造と第２の日本語の部分構造との間の類似度を、前記構文上の類似度及び単語の類似度に基づいて算出する部分構造類似度算出部と、該部分構造類似度算出部により算出された部分構造間の類似度に基づいて、前記第１の日本語文と第２の日本語文との間の類似度を算出する文類似度算出部とを備えたことを特徴とする。

また、前記部分構造類似度算出部は、部分構造間の構文上の類似度を、各部分構造における単語の数及び部分構造間で共通する単語の数に基づいて算出し、前記部分構造間の単語の類似度を、各木構造における単語の階層位置に基づいて算出することが好適である。

本発明を類似性評価装置として説明したが、本発明はこの類似性評価装置を構成するコンピュータによって実行されるプログラムとしても実質的に実現し得るものであり、本発明には、類似性評価プログラムも含まれる。すなわち、本発明による類似性評価プログラムは、第１の日本語文と第２の日本語文との間の類似性を評価する装置による類似性評価プログラムであって、前記装置を構成するコンピュータに、第１の日本語文及び第２の日本語文から、単語をノードとした係り受け関係を示す木構造をそれぞれ生成する処理と、前記第１の日本語文の木構造について、末端の葉ノードを構成する２つの単語を抽出し、該２つの単語間のパスを部分構造として生成する処理と、前記第２の日本語文の木構造について、自立語である２つの単語を抽出し、該２つの単語間のパスを部分構造として生成する処理と、前記第１の日本語文の部分構造と第２の日本語文の部分構造との間の構文上の類似度を算出する処理と、前記第１の日本語文の部分構造と第２の日本語の部分構造との間の前記抽出した単語の類似度を算出する処理と、前記第１の日本語文の部分構造と第２の日本語の部分構造との間の類似度を、前記構文上の類似度及び単語の類似度に基づいて算出する処理と、前記部分構造間の類似度に基づいて、第１の日本語文と第２の日本語文との間の類似度を算出する処理とを実行させることを特徴とする。

以上のように、本発明によれば、比較する日本語文全体の特徴を考慮して類似性を評価するようにしたから、日本語文の部分的な特徴を考慮して類似性を評価する場合に比べて、その信頼性の向上を図ることが可能となる。

以下、本発明を実施するための最良の形態について図面を用いて詳細に説明する。
〔構成〕
まず、本発明の実施の形態による類似性評価装置の構成について説明する。図１は、類似性評価装置の構成を示すブロック図である。この類似性評価装置1は、木構造生成部２、部分構造生成部３、部分構造評価部４、文評価部５及び記憶部６，７を備えており、記憶部６に格納された日本語文（以下、入力日本語文という。）と、記憶部７に格納された日本語文（以下、対象日本語文という）との間の類似性を評価する。

木構造生成部２は、記憶部６から入力日本語文を、記憶部７から対象日本語文をそれぞれ読み出し、既存の形態素解析装置・構文解析装置により、読み出した日本語文を一文毎に構文解析し、文節をノードとした木構造をそれぞれ生成する（図３（Ａ）及び図４（Ａ）を参照、詳細は後述する）。尚、この構文解析手法は既知であるため、ここでは説明を省略する。詳細については、「工藤他、“チャンキングの段階適用による係り受け解析”、情処論、Ｖｏｌ．４３、Ｎｏ．６、ｐｐ．１８３４−１８４２（２００２）」の文献を参照されたい。また、木構造生成部２は、入力日本語及び対象日本語文の木構造に対して、文節に含まれる主辞と助詞等の付属語とを分けてノードとし、新たな木構造をそれぞれ生成する（図３（Ｂ）及び図４（Ｂ）を参照、詳細は後述する）。

部分構造生成部３は、木構造生成部２により生成された新たな木構造をそれぞれ入力し、部分構造（部分木）を生成する。具体的には、入力日本語文の木構造においては、葉ノードにある単語のペアを抽出し、この単語ペアを葉ノードとして、単語ペアと共通係り先（両単語が共通して係り受ける関係のあるノード）との間のパスの構造を生成する。この構造を部分構造とする。また、対象日本語文の木構造においては、その対象日本語文に含まれる全ての単語ペアを抽出し、この単語ペア間のパスや単語ペアと共通係り先との間のパスの構造を生成する。この構造を部分構造とする。これにより、入力日本語文の部分構造、及び対象日本語文の部分構造が生成される。

部分構造評価部４は、部分構造生成部３により生成された入力日本語文の部分構造及び対象日本語文の部分構造を入力し、これらの部分構造間の類似性を評価する。

文評価部５は、部分構造評価部４により評価された類似性の値（類似度）を入力し、入力日本語文と対象日本語文との間の類似性を評価する。

〔動作〕
次に、図１に示した類似性評価装置１の動作について説明する。図２は、類似性評価装置１の処理を説明するフローチャート図である。類似性評価装置１の木構造生成部２は、まず、記憶部６から入力日本語文を読み出して構文解析し、木構造を生成する（ステップＳ２−１）。図３（Ａ）及び（Ｂ）は、入力日本語文の木構造の例を示す図である。木構造生成部２は、構文解析により、文節（ノード）単位の係り受け関係を抽出し、図３（Ａ）に示すような木構造を抽出する。この場合、例えば「そこで」と「徹底調査」との間に係り受け関係がある。そして、文節に含まれる主辞と助詞等の付属語との間にも係り受け関係があるとし、主辞が付属語に係るとして形態素単位の係り受けを明示した木構造を、図３（Ｂ）のように生成する。

また、木構造生成部２は、記憶部７から対象日本語文を読み出して構文解析し、木構造を生成する（ステップＳ２−３）。図４（Ａ）及び（Ｂ）は、対象日本語文の木構造の例を示す図である。木構造生成部２は、前述の入力日本語文の場合と同じように、文節単位の係り受け関係を抽出し、図４（Ａ）に示すように木構造を抽出する。そして、前述の入力日本語文の場合と同じように、図４（Ｂ）のように木構造を生成する。

部分構造生成部３は、入力日本語文について、木構造生成部２により生成された木構造から葉ノードの単語を取り出し、その単語のペアを抽出する。そして、その単語ペアからその共通係り先までのパスとなる木構造を、構文木の部分構造として、図３（Ｃ）のように生成する（ステップＳ２−２）。ここで、葉ノードの単語のペアは、図３（Ｂ）において「そこで」「ガッテン」「唾液」のうちの２つの単語の組み合わせである。

また、部分構造生成部３は、対象日本語文について、木構造生成部２により生成された木構造から、自立語の全ての単語ペアを抽出し、その２つの単語間のパス及び２つの単語からその共通係り先までのパスとなる木構造を、構文木における部分構造として、図４（Ｃ）のように生成する（ステップＳ２−４）。ここで、部分構造生成部３により抽出される単語ペアは、図４（Ｂ）において、「そこで」「きょう」「メカニズム」「痛風」「徹底研究」のうちの２つの単語の組み合わせである。

尚、部分構造生成部３は、入力日本語文及び対象日本語文について、部分構造を生成する際に、名詞のみを対象として単語ペアを抽出するようにしてもよい。これにより、計算効率を向上させることができる。この場合、入力日本語文については、葉ノードに最も近い名詞が対象とし、対象日本語文については、全ての名詞を対象とする。

部分構造評価部４は、部分構造生成部３により生成された、入力日本語文における構文木の部分構造と、対象日本語文における構文木の部分構造との間の類似性を評価する（ステップＳ２−５）。図５は、部分構造評価部４による部分構造の類似性評価処理手順を示すフローチャート図である。以下、入力日本語文における全ての単語ペアの部分構造と、対象日本語文における全ての単語ペアの部分構造との間の類似性の評価を説明する。まず、部分構造評価部４は、入力日本語文における一つの単語ペアの部分構造と、対象日本語文における一つの単語ペアの部分構造との間の比較処理において、入力日本語文について全ての単語ペアの比較処理が完了したか否かを判定する（ステップＳ５−１）。全ての単語ペアの比較処理が完了していない場合は、比較処理が完了していない入力日本語文の単語ペアから一つの単語ペアを選択する（ステップＳ５−２）。そして、対象日本語文について全ての単語ペアの比較処理が完了したか否かを判定する（ステップＳ５−３）。全ての単語ペアの比較処理が完了していない場合は、比較処理が完了していない対象日本語文の単語ペアから一つの単語ペアを選択する（ステップＳ５−４）。

部分構造評価部４は、ステップ５−２，５−４において選択した単語ペアを対象として、部分構造間の構文上の類似度を判定する（ステップＳ５−５）。具体的には、選択した入力日本語文の単語ペアを「単語１−１」「単語１−２」とし、選択した対象日本語文の単語ペアを「単語２−１」「単語２−２」とした場合に、「単語１−１」から当該「単語１−１」と「単語１−２」との間の共通係り先までのパス上にある単語を抽出し、「単語２−１」から当該「単語２−１」と「単語２−２」との間の共通係り先までのパス上にある単語を抽出する。そして、抽出した単語間を比較し、その共通する単語の数をカウントする。同様に、「単語１−２」から当該「単語１−２」と「単語１−１」との間の共通係り先までのパス上にある単語を抽出し、「単語２−２」から当該「単語２−２」と「単語２−１」との間の共通係り先までのパス上にある単語を抽出する。そして、抽出した単語間を比較し、その共通する単語の数をカウントする。

例えば、図３（Ｃ）に示した入力日本語文における「ガッテンが唾液の秘密を徹底調査」の部分構造と、図４（Ｃ）に示した対象日本語文における「きょうは痛風のメカニズムを徹底研究」の部分構造とを比較処理する場合、「単語１−１」に相当する「ガッテン」から、当該「ガッテン」と「単語１−２」に相当する「唾液」との間の共通係り先「徹底調査」までのパス上にある単語「が」を抽出し、「単語２−１」に相当する「きょう」から、当該「きょう」と「単語２−２」に相当する「痛風」との間の共通係り先「徹底研究」までのパス上にある単語「は」を抽出し、抽出した単語間を比較し、その共通する単語の数は０となる。同様に、「単語１−２」に相当する「唾液」から、当該「唾液」と「単語１−１」に相当する「ガッテン」との間の共通係り先「徹底調査」までのパス上にある単語「の」「秘密」「を」を抽出し、「単語２−２」に相当する「痛風」から、当該「痛風」と「単語２−１」に相当する「きょう」との間の共通係り先「徹底研究」までのパス上にある単語「の」「メカニズム」「を」を抽出し、抽出した単語間を比較し、その共通する単語「の」「を」の数は２となる。

部分構造評価部４は、カウントした共通単語数を用いて、部分構造間の構文上の類似度ｓｉｍ＿ｓｔｒｕｃｔｕｒｅ（ｐ_１，ｐ_２）を、以下の式で判定する。

ｗｃ（ｐ_ｉ）は、対象としている単語対ｐ_ｉの対象単語から共通係り先までのパス上にある単語数の和を示す。前述の例では、単語対ｐ_１における単語数の和は１＋３＝４、単語対ｐ_２における単語数の和は１＋３＝４である。ｃｏｍ（ｐ_１，ｐ_２）は共通単語数を示し、前述の例では２となる。したがって、前述の例では、部分構造間の構文上の類似度は、ｓｉｍ＿ｓｔｒｕｃｔｕｒｅ（ｐ_１，ｐ_２）＝２×２／（４＋４）＝０．５となる。

図５に戻って、次に、部分構造評価部４は、部分構造間の単語ペアの類似性、及び共通係り先の単語の類似度を判定する（ステップＳ５−６）。具体的には、単語間の類似度ｓｉｍ＿ｗｏｒｄ（ｗ_１，ｗ_２）は、分類語彙表を利用して、以下の式による算出される。
ｓｉｍ＿ｗｏｒｄ（ｗ_１，ｗ_２）＝ｄ_ｃ×２／（ｄ_ｉ＋ｄ_ｊ）
ここで、ｄ_ｉ，ｄ_ｊは共通係り受け先から単語までのそれぞれの距離（深さ）を示し、ｄ_ｃはそれらの共通の上位語の深さを示す。尚、この単語間の類似性の評価手法は既知であるため、ここでは詳細な説明を省略する。詳細については、前述した非特許文献１を参照されたい。

そして、部分構造評価部４は、部分構造間の構文上の類似度及び単語ペア間等の類似度を用いて、部分構造間の類似度を判定する（ステップＳ５−７）。具体的には、部分構造間の類似度ｓｉｍ（ｐ_１，ｐ_２）は、以下の式により算出される。

ここで、ｓｉｍ＿ｗｏｒｄ（ｗ_１−１，ｗ_２−１），ｓｉｍ＿ｗｏｒｄ（ｗ_１−２，ｗ_２−２）は単語ペアの類似度を、ｓｉｍ＿ｗｏｒｄ（ｗ_１−３，ｗ_２−３）は共通係り先の単語の類似度を示す。

例えば、前述の例では、ｓｉｍ＿ｗｏｒｄ（ガッテン，きょう）＝０．０１、ｓｉｍ＿ｗｏｒｄ（唾液，痛風）＝０．１、ｓｉｍ＿ｗｏｒｄ（徹底調査，徹底研究）＝０．７９としたとき、ｓｉｍ（ｐ_１，ｐ_２）＝０．５×（０．０１＋０．１＋０．７９）／３＝０．１５になる。そして、ステップ５−３へ戻る。

ステップ５−３において、対象日本語文について全ての単語ペアの比較処理が完了した場合は、入力日本語文についての一つの単語ペアと対象日本語文についての全ての単語ペアとのそれぞれの比較処理が完了したことになり、それぞれの比較処理により得られた部分構造間の類似度のうちの最大の類似度を、入力日本語文についての一つの単語ペアにおける（が持つ）対象日本語文に対する類似度に設定する（ステップＳ５−８）。そして、ステップ５−１へ戻る。

ステップ５−１において、入力日本語文についての全ての単語ペアの比較処理が完了した場合は、処理を終了する。これにより、部分構造評価部４は、入力日本語文から抽出された全ての単語ペアにおける（が持つ）対象日本語文に対する類似度の値を算出したことになる。

図２に戻って、文評価部５は、部分構造評価部４により評価された、入力日本語文から抽出された全ての単語ペアが持つ対象日本語文に対する類似度の値を入力し、以下の式により、入力日本語文ｓ_１と対象日本語文ｓ_２との間の類似性を評価する（ステップＳ２−６）。具体的には、以下に示す類似度ｓｉｍ（ｓ_１，ｓ_２）を算出する。

ここで、ｃｏｕｎｔ（ｓ_１）は、文ｓ_１に含まれる単語ペアの数を表す。同様にして、文評価部５は、入力日本語文ｓ_１と他の対象日本語文ｓ_３，ｓ_４・・・との間の類似度ｓｉｍ（ｓ_１，ｓ_３），ｓｉｍ（ｓ_１，ｓ_４），・・・を算出し、この値の降順に、入力日本語文と対象日本語文が類似しているものと判断する。

以上のように、本発明の実施の形態による類似性評価装置１によれば、文評価部５が、入力日本語文と対象日本語文との間の類似性の評価を、部分構造間の構造上の類似度及び単語ペア間等の類似度から算出した部分構造間の類似度に基づいて行い、類似度の値として算出するようにした。これにより、日本語文の類似性を定量的に評価することができる。この場合、入力日本語文と対象日本語文との間の類似性は、日本語文全体の特徴を考慮して評価されるから、日本語文の部分的な特徴のみを考慮して類似性を評価する場合に比べて、その信頼性の向上を図ることが可能となる。さらに、例えば、番組データを用いて番組中の重要な映像カットを抽出し、番組の要約を生成する場合には、映像カットを抽出するときに必要な日本語文間の類似性について、信頼性の高い結果を得ることができる。これにより、正確な映像カットを抽出することができる。すなわち、類似性評価装置１を利用することにより、蓄積された番組情報を有効に活用することが可能となる。

また、本発明の実施の形態による類似性評価装置１によれば、部分構造評価部４が、部分構造間の類似性の評価を類似度として算出するようにした。これにより、部分構造評価部４による処理を、日本語文から典型的な表現を抽出する際に利用することができる。

尚、類似性評価装置１は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。類似性評価装置１に備えた木構造生成部２、部分構造生成部３、部分構造評価部４及び文評価部５の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク（フロッピィーディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもできる。

以上、実施の形態を挙げて本発明を説明したが、本発明は上記実施の形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、図１に示した類似性評価装置１は、１台のコンピュータ装置により構成されるが、これに限定されるものではなく、例えば、木構造生成部２、部分構造生成部３、部分構造評価部４及び文評価部５を備えたコンピュータと、記憶部６，７を備えたコンピュータを別々に設け、これらのコンピュータを、ネットワークを介して接続するように構成してもよい。

本発明の実施の形態による類似性評価装置の構成を示すブロック図である。図１の類似性評価装置の処理を説明するフローチャート図である。入力日本語文の木構造及び部分構造の例を示す図である。対象日本語文の木構造及び部分構造の例を示す図である。図１の部分構造評価部の処理を説明するフローチャート図である。

符号の説明

１類似性評価装置
２木構造生成部
３部分構造生成部
４部分構造評価部
５文評価部
６，７記憶部

Claims

第１の日本語文と第２の日本語文との間の類似性を評価する類似性評価装置において、
第１の日本語文及び第２の日本語文から、単語をノードとした係り受け関係を示す木構造をそれぞれ生成する木構造生成部と、
該木構造生成部により生成された第１の日本語文の木構造について、末端の葉ノードを構成する２つの単語を抽出し、該２つの単語間のパスを部分構造として生成すると共に、前記第２の日本語文の木構造について、自立語である２つの単語を抽出し、該２つの単語間のパスを部分構造として生成する部分構造生成部と、
該部分構造生成部により生成された第１の日本語文の部分構造と第２の日本語文の部分構造との間の構文上の類似度を算出し、
前記第１の日本語文の部分構造と第２の日本語の部分構造との間の前記抽出した単語の類似度を算出し、
前記第１の日本語文の部分構造と第２の日本語の部分構造との間の類似度を、前記構文上の類似度及び単語の類似度に基づいて算出する部分構造類似度算出部と、
該部分構造類似度算出部により算出された部分構造間の類似度に基づいて、前記第１の日本語文と第２の日本語文との間の類似度を算出する文類似度算出部とを備えたことを特徴とする類似性評価装置。
請求項１に記載の類似性評価装置において、
前記部分構造類似度算出部は、
前記部分構造間の構文上の類似度を、各部分構造における単語の数及び部分構造間で共通する単語の数に基づいて算出し、
前記部分構造間の単語の類似度を、各木構造における単語の階層位置に基づいて算出することを特徴とする類似性評価装置。
第１の日本語文と第２の日本語文との間の類似性を評価する装置による類似性評価プログラムであって、前記装置を構成するコンピュータに、
第１の日本語文及び第２の日本語文から、単語をノードとした係り受け関係を示す木構造をそれぞれ生成する処理と、
前記第１の日本語文の木構造について、末端の葉ノードを構成する２つの単語を抽出し、該２つの単語間のパスを部分構造として生成する処理と、
前記第２の日本語文の木構造について、自立語である２つの単語を抽出し、該２つの単語間のパスを部分構造として生成する処理と、
前記第１の日本語文の部分構造と第２の日本語文の部分構造との間の構文上の類似度を算出する処理と、
前記第１の日本語文の部分構造と第２の日本語の部分構造との間の前記抽出した単語の類似度を算出する処理と、
前記第１の日本語文の部分構造と第２の日本語の部分構造との間の類似度を、前記構文上の類似度及び単語の類似度に基づいて算出する処理と、
前記部分構造間の類似度に基づいて、第１の日本語文と第２の日本語文との間の類似度を算出する処理とを実行させる類似性評価プログラム。