JP6165068B2

JP6165068B2 - ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法

Info

Publication number: JP6165068B2
Application number: JP2014007286A
Authority: JP
Inventors: 服部　元; 元服部; 滝嶋　康弘; 康弘滝嶋
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2014-01-17
Filing date: 2014-01-17
Publication date: 2017-07-19
Anticipated expiration: 2034-01-17
Also published as: JP2015135637A

Description

本発明は、ストーリー（話の流れ）を持つ文章間の類似度を導出する技術に関する。特に、入力されたクエリ文章に対応する、ストーリー性のあるコンテンツ文章を検索する技術に適用する。

例えば書籍や映画のようなストーリーを持つコンテンツ文章には、検索を可能とするために、あらすじ、セリフ、画像、音楽、感覚要素、対象者要素（年齢層、性別など）、ジャンル等の属性情報が付与されている。従来、検索装置は、ユーザが１つ以上の属性をクエリ（キーワード）として入力し、そのクエリと一致する属性情報を持つコンテンツ文章を検索結果として出力する技術がある（例えば特許文献１参照）。

また、例えば書籍のコンテンツについて、ユーザにとって題名、作者名、出版社名等が不明であっても、その内容や画像をキーとして、所望の図書を検索することができる技術がある（例えば特許文献２参照）。この技術によれば、書誌データ「題名，作者名，出版社名等」に、「発行日，国際標準図書番号，図書サイズ，図書ページ数、読解データ（あらすじ情報と、図書内容を表す複数の単語情報）、画像データ」を含めたものである。これによって、読解データを対象とした検索も可能となる。

特開２００４−０６２６５４号公報特開２００２−１３２７８６号公報

前述した特許文献１及び２のような従来技術によれば、ユーザによって入力されたクエリ文章を、形態素に解析し、それら単語の出現頻度に応じて類似度が判定されている。即ち、検索装置によれば、クエリ文章の単語の出現頻度が多いコンテンツ文章ほど、検索結果として優先的に選択されることとなる。

これに対し、本願の発明者らは、「クエリ文章であっても、ストーリーを持つ１つのコンテンツであるのではないか？」と考えた。即ち、クエリ文章であってもコンテンツ文章であっても、それら文章に含まれる各文の順序は、話の流れでの１つであると考えた。クエリ文章の単語の出現頻度が多いコンテンツ文章であっても、話の流れが異なる場合、検索結果として優先的に選択されるべきではない。

そこで、本発明は、単語の出現頻度のみならず、文章間の話の流れも考慮して類似度を導出する類似検索プログラム、装置及び方法を提供することを目的とする。

本発明によれば、装置に搭載されたコンピュータを、第１の文章と第２の文章との間の類似度を導出するように機能させる類似検索プログラムにおいて、
第１の文章及び第２の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出するシーン分析手段と、
類義語辞書部を用いて、第１の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第１の文章のシーン要素を「原単語＋拡張単語」に拡張し、第１の文章の各シーン要素に対して第２の文章の全てのシーン要素を比較し、マッチングした当該第２の文章における「シーン順序」を導出するマッチング手段と、
第１の文章のシーン要素と第２の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与するポイント付与手段と
してコンピュータを機能させ、当該ポイントを第１の文章と第２の文章との間の類似度とすることを特徴とする。

本発明の類似検索プログラムにおける他の実施形態によれば、
ポイント付与手段は、第１の軸にシーン順序に応じてシーン要素を並べ、第２の軸にポイント数を記述したグラフに記録する
ようにコンピュータを機能させることも好ましい。

本発明の類似検索プログラムにおける他の実施形態によれば、
第１の文章は、検索用のクエリ文章であって、シーン分析手段によってリアルタイムに分析されると共に、
第２の文章は、検索対象用のコンテンツ文章であって、シーン分析手段によって予め大量に分析され、分析結果となる第２の文章のシーン要素としてコンテンツシーン蓄積手段に蓄積される
ようにコンピュータを機能させることも好ましい。

本発明の類似検索プログラムにおける他の実施形態によれば、
シーン分析手段は、入力された文章に対し、述語項構造解析によって複文を単文に分割すると共に、各単文を形態素解析によって形態素に区分し、各形態素に対する格分析によって主語、目的語及び述語に区分する
ようにコンピュータを機能させることも好ましい。

本発明によれば、装置に搭載されたコンピュータを、第１の文章と第２の文章との間の類似度を導出する類似検索装置において、
第１の文章及び第２の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出するシーン分析手段と、
類義語辞書部を用いて、第１の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第１の文章のシーン要素を「原単語＋拡張単語」に拡張し、第１の文章の各シーン要素に対して第２の文章の全てのシーン要素を比較し、マッチングした当該第２の文章における「シーン順序」を導出するマッチング手段と、
第１の文章のシーン要素と第２の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与するポイント付与手段と
を有し、当該ポイントを第１の文章と第２の文章との間の類似度とすることを特徴とする。

本発明によれば、装置を用いて、第１の文章と第２の文章との間の類似度を導出する類似検索方法において、
第１の文章及び第２の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出する第１のステップと、
類義語辞書部を用いて、第１の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第１の文章のシーン要素を「原単語＋拡張単語」に拡張し、第１の文章の各シーン要素に対して第２の文章の全てのシーン要素を比較し、マッチングした当該第２の文章における「シーン順序」を導出する第２のステップと、
第１の文章のシーン要素と第２の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与する第３のステップと
を有し、当該ポイントを第１の文章と第２の文章との間の類似度とすることを特徴とする。

本発明のプログラム、装置及び方法によれば、単語の出現頻度のみならず、文章間の話の流れも考慮して類似度を導出することができる。

本発明における類似検索装置の機能構成図である。本発明におけるシーン分析部のフローチャートである。本発明におけるマッチング部のフローチャートである。検索結果を表す画面イメージである。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

本発明の基本的機能としては、第１の文章と第２の文章との間の類似度を導出するものである。この機能によれば、第１の文章を検索用のクエリ文章とし、第２の文章を検索対象用のコンテンツ文章として、類似度の高いコンテンツ文章を検索することができる。以下では、実施形態として、コンテンツ（例えば書籍や映画など）を対象とした検索について、利用者が入力したクエリ文章（ストーリーにおけるシーンの一部）に対して、類似度が高いコンテンツを検索する類似検索装置について説明する。

図１は、本発明における類似検索装置の機能構成図である。

類似検索装置１は、ユーザによって操作される端末２から、クエリ文章を受信し、そのクエリ文章をキーとして複数のコンテンツを検索する。図１によれば、類似検索装置１は、コンテンツ文章収集部１１と、クエリ文章入力部１２と、シーン分析部１３と、コンテンツシーン蓄積部１４と、マッチング部１５と、類義語辞書部１６と、ポイント付与部１７と、検索結果出力部１８とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。図１の機能構成部の処理の流れによれば、類似検索方法としても理解できる。

［コンテンツ文章収集部１１］
コンテンツ文章収集部１１は、コンテンツ毎に、大量のコンテンツ文章を蓄積したデータベースである。又は、コンテンツ文章収集部１１は、ネットワークを介して、インターネットに接続された様々なサーバ群に蓄積されたコンテンツ文章を検索することができるものであってもよい。「コンテンツ文章」とは、例えば書籍や映画のようなコンテンツに関連するストーリー文章であって、例えばWikipedia（登録商標）のように当該コンテンツについて解説したものであってもよい。即ち、コンテンツそのものである必要はない。例えば当該コンテンツが映画である場合、そのストーリーの要約文であってもよい。コンテンツ文章収集部１１によって収集されたコンテンツ文章は、シーン分析部１３へ出力される。

［クエリ文章入力部１２］
クエリ文章入力部１２は、ユーザから検索用のクエリ文章を受信し、そのクエリ文章をシーン分析部１３へ出力する。クエリ文章入力部１２は、ユーザによって操作される端末２から要求に対して、Ｗｅｂぺージを応答するものであってもよい。このＷｅｂページは、クエリ文章を入力可能な１つの「検索窓」及び「検索ボタン」を有する。入力可能なテキストは、単文に限られず、複文の入力も許容する。尚、マイクと音声認識機能を用いて、利用者の音声によるテキスト入力に対応してもよい。ここで、例えば以下のようなクエリ文章を受信したとする。
「お姫様と化け物が悪者をやっつけて、最後に彼らが結婚する」映画は？

［シーン分析部１３］
シーン分析部１３は、クエリ文章（第１の文章）及びコンテンツ文章（第２の文章）について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出する。

検索用のクエリ文章は、シーン分析部１３によってリアルタイムに分析される。一方で、検索対象用のコンテンツ文章は、シーン分析部１３によって予め大量に分析され、分析結果となるコンテンツのシーン要素としてコンテンツシーン蓄積部１４に蓄積される。

図２は、本発明におけるシーン分析部のフローチャートである。

（Ｓ１３１）述語項構造解析
入力された文章に対して、述語項構造解析によって複文を単文に分割すると共に、各単文を形態素解析によって形態素に区分し、各形態素に対する格分析によって主語、目的語及び述語に区分する。

「述語項構造」とは、文章中の述語に対して「項」となる名詞句等を当てたものである。述語項構造を用いることによって、文章の意味の骨格を把握することができる。述語項構造解析として、例えばフリーソフトであるSyncha等の述語項構造解析器を用いることができる。また、「形態素」とは、ある言語について意味を持つ最小の単位をいい、それ以上分解したら意味をなさなくなる単位まで分解された各音素をいう。

述語項構造は、「述語」に対する「目的語」（及び主語）とその「格」とから構成される。例えば「悪者をやっつける」の述語項構造は、述語「やっつける」に対して目的語「悪者」及び格「ヲ」からなる。また、例えば「結婚する」の述語項構造は、述語「結婚する」に対して目的語「――」及び格「ニ」からなる。尚、述語項構造解析は、代名詞についても、前述した名詞を自動的に補完する。
クエリ文章「お姫様と化け物が悪者をやっつけて、最後に彼らが結婚する」
述語項構造
「お姫様と化け物が悪者をやっつける／最後にお姫様と化け物（彼ら）が結婚する
目的語：「悪者」ヲ格／目的語：「――」ニ格
述語：「やっつける」／述語：「結婚する」

（Ｓ１３２）シーン表現抽出
Ｓ１３１の述語項構造解析によって、文章が複文である場合、複数のシーンが含まれているとし、シーン順序を構成する。また、格を判定し、「主語」「目的語」「述語」に区分する。
述語項構造１「お姫様と化け物が悪者をやっつける」
主語：「お姫様」「化け物」
目的語：「悪者」ヲ格
述語：「やっつける」
述語項構造２「最後にお姫様と化け物（彼ら）が結婚する」
主語：「お姫様」「化け物」
目的語：「――」ニ格
述語：「結婚する」

（Ｓ１３３）シーン要素構成
単文を「１シーン」と定義し、文章毎に、複数のシーンを順序付けしてリスト化する。シーン毎に、「主語」「目的語」「述語」が登録される。「主語」「目的語」「述語」それぞれは、１以上の形態素からなり、１つの形態素からなる単純語（例えば山）と、複数の形態素からなる複合語（例えば山登り）とがある。
シーン：［＜主語＞＜目的語＞＜述語＞］
シーン要素１：＜お姫様＞＜悪者＞＜やっつける＞
＜化け物＞
シーン要素２：＜お姫様＞＜――＞＜結婚する＞
＜化け物＞

シーン分析部１３は、コンテンツ文章に基づくシーン要素を、コンテンツ蓄積部１４へ出力し、クエリ文章に基づくシーン要素を、マッチング部１５へ出力する。

［コンテンツシーン蓄積部１４］
コンテンツシーン蓄積部１４は、コンテンツ文章収集部１１から出力された当該コンテンツ文章（識別子）毎に、シーン分析部１３によって分析されたシーン要素群を蓄積する。コンテンツシーン蓄積部１４は、マッチング部１５から参照される。

［マッチング部１５］
図３は、本発明におけるマッチング部のフローチャートである。

（Ｓ１３１）シーン表現拡張
マッチング部１５は、類義語辞書部１６を用いて、クエリ文章（第１の文章）の各シーン要素に含まれる原単語に類似する拡張単語を検索し、クエリ文章のシーン要素を「原単語＋拡張単語」に拡張する。
＜お姫様＞ ->＜姫＞＜女性＞＜ヒロイン＞
＜化け物＞ ->＜怪物＞＜妖怪＞
＜悪者＞ ->＜敵＞＜悪役＞
＜やっつける＞->＜戦う＞＜殺す＞＜追い払う＞
＜結婚する＞ ->＜恋に落ちる＞＜結ばれる＞
これによって、例えば以下ようなシーン要素も、マッチング対象とする。
シーン要素１：＜お姫様＞＜悪者＞＜やっつける＞
＜姫＞＜妖怪＞＜戦う＞
＜ヒロイン＞＜怪物＞＜殺す＞
・・・
シーン要素２：＜女性＞＜――＞＜恋に落ちる＞
＜妖怪＞＜――＞＜結ばれる＞
・・・

（Ｓ１３２）マッチング位置抽出
マッチング部１５は、クエリ文章（第１の文章）の各シーン要素に対してコンテンツ文章（第２の文章）の全てのシーン要素を比較し、マッチングした当該コンテンツ第２の文章における「シーン順序」を導出する。即ち、当クエリ文章の当該シーン要素が、コンテンツ文章における何番目（シーン順序）に出現したかを導出する。これによって、出願頻度だけでなく、出現したシーン要素同士の先後関係も認識することができる。例えば、シーン要素同士の先後関係の一致／不一致によって、所定ポイント数の差をつけることによって、できる限りクエリ文章（例えばユーザの記憶に基づくシーンの出現順序）に合ったコンテンツ文章を検索することができる。

＜コンテンツ文章に対する出現頻度とシーン順序の抽出＞
例えば、前述したクエリ文章のシーン要素１及び２と、以下のようなコンテンツ文章の全てのシーン要素とを比較する。
［映画：カリブ］
「・・・。お姫様は、海賊にさらわれて、彼らは恋に落ちた。・・・」
シーン要素１＜お姫様＞＜海賊＞＜さらわれる＞
＜お姫様＞＜海賊＞＜恋に落ちる＞
出現頻度：０
［映画：妖怪］
「・・・。ヒロインと妖怪は、恋に落ちて、一緒に悪者をやっつけた。・・・」
シーン要素１＜ヒロイン＞＜――＞＜恋に落ちる＞
＜妖怪＞
シーン要素２＜ヒロイン＞＜悪者＞＜やっつける＞
＜妖怪＞
出現頻度：２
シーン順序：シーン要素２->シーン要素１
［映画：野獣］
「・・・。怪物とお姫様は、敵をやっつけて、彼らは結ばれた。・・・」
シーン要素１＜怪物＞＜敵＞＜やっつける＞
＜お姫様＞
シーン要素２＜怪物＞＜――＞＜結ばれる＞
＜お姫様＞
出現頻度：２
シーン順序：シーン要素１->シーン要素２
［映画：白雪姫］
「・・・。お姫様は、リンゴを食べて、王子様と結婚した。・・・」
シーン要素１＜お姫様＞＜リンゴ＞＜食べる＞
シーン要素２＜お姫様＞＜――＞＜結婚する＞
出現頻度：１
シーン順序：シーン要素２のみ

［ポイント付与部１７］
ポイント付与部１７は、クエリ文章（第１の文章）のシーン要素とコンテンツ文章（第２の文章）のシーン要素との間のマッチングした数と、マッチングした先後のシーン要素同士の時系列順序が一致した数とが多いほど、高いポイントを付与する。図３によれば、当該クエリ文章のシーン要素に対して、コンテンツ文章毎のグラフが表されている。このグラフは、ポイント付与部１７は、横軸にシーン順序に応じてシーン要素を並べ、縦軸にポイント数を記述したものである。横軸は、所定単位の順序数毎に、ポイント数が計数されている。

最も簡単なポイント計数方法として、以下のようなものがある。
クエリ文章の１つのシーン要素が出現した ->１ポイント
出現した先後のシーン要素のシーン順序が一致した->１ポイント
これによって、コンテンツ文章毎に、ポイント数の平均値を算出する。そして、その平均値を類似度として、類似度が最も高いコンテンツ文章を検索結果として選択する。

ここで、ポイント数の計数方法として、以下のような順序で、高->低を規定することもできる。
（１０ポイント）
クエリ文章の「シーン要素の原単語で」出現した、且つ、
出現した先後のシーン要素の「シーン順序が一致」した
（８ポイント）
クエリ文章の「シーン要素の拡張表現で」出現した、且つ、
出現した先後のシーン要素の「シーン順序が一致」した
（５ポイント）
クエリ文章の「シーン要素の原単語又は拡張表現で」出現した、且つ、
出現した先後のシーン要素の「シーン順序が不一致」だった
（３ポイント）
クエリ文章の「シーン要素の主語、目的語、述語が、所定文範囲内
（例えば前後１０文（前後１０個のシーン要素）以内）に」出現した
※前後１０文程度の所定文範囲内の近隣に、クエリ文章のシーン要素の各原単語が
離れて存在する場合を想定している。
（１ポイント）
クエリ文章の「シーン要素のいずれの単語」が出現した

［検索結果出力部１８］
検索結果出力部１８は、検索結果として、２つの文章間の類似度、又は、クエリ文章に最も類似するコンテンツ文章の識別子（コンテンツ名）を出力する。具体的には、ポイント付与部１７におけるポイントが最も高いコンテンツ文章を、クエリ文章に対する類似検索結果として出力する。ポイント数の降順に、複数のコンテンツ文章のコンテンツ名を並べて出力するものであってもよい。尚、検索結果出力部１８は、ユーザによって操作される端末２からのクエリ文章の要求に対して、Ｗｅｂぺージを応答するものであってもよい。

図４は、検索結果を表す画面イメージである。

図４（ａ）によれば、クエリ文章として「お姫様と化け物が悪者をやっつけて、最後に彼らが結婚する」と入力されている。これに対し、ポイント数の降順に、コンテンツ文章「野獣」「妖怪」「白雪姫」「カリブ」が表示されている。ここで、ユーザが、最も類似度が高い「野獣」を選択したとする。

図４（ｂ）によれば、映画「野獣」が再生されている。このとき、ポイント付与部１７で記録されたグラフを用いて、ポイント数が最も高いシーン位置へジャンプして、その位置から再生を開始することもできる。コンテンツが書籍であれば、ポイント数が最も高いページ位置へジャンプして再生する。

以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、単語の出現頻度のみならず、文章間の話の流れも考慮して類似度を導出することができる。

特に、本発明によれば、クエリ文章に含まれる単語だけではなく、シーンとして検索するため、クエリ文章（例えばユーザが想定するストーリー文）に合う検索結果を優先的に出力することができる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１類似検索装置
１１コンテンツ文章収集部
１２クエリ文章入力部
１３シーン分析部
１４コンテンツシーン蓄積部
１５マッチング部
１６類義語辞書部
１７ポイント付与部
１８検索結果出力部
２端末
３サーバ

Claims

装置に搭載されたコンピュータを、第１の文章と第２の文章との間の類似度を導出するように機能させる類似検索プログラムにおいて、
第１の文章及び第２の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出するシーン分析手段と、
類義語辞書部を用いて、第１の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第１の文章のシーン要素を「原単語＋拡張単語」に拡張し、第１の文章の各シーン要素に対して第２の文章の全てのシーン要素を比較し、マッチングした当該第２の文章における「シーン順序」を導出するマッチング手段と、
第１の文章のシーン要素と第２の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与するポイント付与手段と
してコンピュータを機能させ、当該ポイントを第１の文章と第２の文章との間の類似度とすることを特徴とする類似検索プログラム。
前記ポイント付与手段は、第１の軸にシーン順序に応じて前記シーン要素を並べ、第２の軸にポイント数を記述したグラフに記録する
ようにコンピュータを機能させることを特徴とする請求項１に記載の類似検索プログラム。
第１の文章は、検索用のクエリ文章であって、前記シーン分析手段によってリアルタイムに分析されると共に、
第２の文章は、検索対象用のコンテンツ文章であって、前記シーン分析手段によって予め大量に分析され、分析結果となる第２の文章のシーン要素としてコンテンツシーン蓄積手段に蓄積される
ようにコンピュータを機能させることを特徴とする請求項１又は２に記載の類似検索プログラム。
前記シーン分析手段は、入力された文章に対し、述語項構造解析によって複文を単文に分割すると共に、各単文を形態素解析によって形態素に区分し、各形態素に対する格分析によって主語、目的語及び述語に区分する
ようにコンピュータを機能させることを特徴とする請求項１から３のいずれか１項に記載の類似検索プログラム。
装置に搭載されたコンピュータを、第１の文章と第２の文章との間の類似度を導出する類似検索装置において、
第１の文章及び第２の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出するシーン分析手段と、
類義語辞書部を用いて、第１の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第１の文章のシーン要素を「原単語＋拡張単語」に拡張し、第１の文章の各シーン要素に対して第２の文章の全てのシーン要素を比較し、マッチングした当該第２の文章における「シーン順序」を導出するマッチング手段と、
第１の文章のシーン要素と第２の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与するポイント付与手段と
を有し、当該ポイントを第１の文章と第２の文章との間の類似度とすることを特徴とする類似検索装置。
装置を用いて、第１の文章と第２の文章との間の類似度を導出する類似検索方法において、
第１の文章及び第２の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出する第１のステップと、
類義語辞書部を用いて、第１の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第１の文章のシーン要素を「原単語＋拡張単語」に拡張し、第１の文章の各シーン要素に対して第２の文章の全てのシーン要素を比較し、マッチングした当該第２の文章における「シーン順序」を導出する第２のステップと、
第１の文章のシーン要素と第２の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与する第３のステップと
を有し、当該ポイントを第１の文章と第２の文章との間の類似度とすることを特徴とする類似検索方法。