JP6165068B2 - ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法 - Google Patents
ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法 Download PDFInfo
- Publication number
- JP6165068B2 JP6165068B2 JP2014007286A JP2014007286A JP6165068B2 JP 6165068 B2 JP6165068 B2 JP 6165068B2 JP 2014007286 A JP2014007286 A JP 2014007286A JP 2014007286 A JP2014007286 A JP 2014007286A JP 6165068 B2 JP6165068 B2 JP 6165068B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- scene
- scene element
- analysis
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
第1の文章及び第2の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出するシーン分析手段と、
類義語辞書部を用いて、第1の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第1の文章のシーン要素を「原単語+拡張単語」に拡張し、第1の文章の各シーン要素に対して第2の文章の全てのシーン要素を比較し、マッチングした当該第2の文章における「シーン順序」を導出するマッチング手段と、
第1の文章のシーン要素と第2の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与するポイント付与手段と
してコンピュータを機能させ、当該ポイントを第1の文章と第2の文章との間の類似度とすることを特徴とする。
ポイント付与手段は、第1の軸にシーン順序に応じてシーン要素を並べ、第2の軸にポイント数を記述したグラフに記録する
ようにコンピュータを機能させることも好ましい。
第1の文章は、検索用のクエリ文章であって、シーン分析手段によってリアルタイムに分析されると共に、
第2の文章は、検索対象用のコンテンツ文章であって、シーン分析手段によって予め大量に分析され、分析結果となる第2の文章のシーン要素としてコンテンツシーン蓄積手段に蓄積される
ようにコンピュータを機能させることも好ましい。
シーン分析手段は、入力された文章に対し、述語項構造解析によって複文を単文に分割すると共に、各単文を形態素解析によって形態素に区分し、各形態素に対する格分析によって主語、目的語及び述語に区分する
ようにコンピュータを機能させることも好ましい。
第1の文章及び第2の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出するシーン分析手段と、
類義語辞書部を用いて、第1の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第1の文章のシーン要素を「原単語+拡張単語」に拡張し、第1の文章の各シーン要素に対して第2の文章の全てのシーン要素を比較し、マッチングした当該第2の文章における「シーン順序」を導出するマッチング手段と、
第1の文章のシーン要素と第2の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与するポイント付与手段と
を有し、当該ポイントを第1の文章と第2の文章との間の類似度とすることを特徴とする。
第1の文章及び第2の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出する第1のステップと、
類義語辞書部を用いて、第1の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第1の文章のシーン要素を「原単語+拡張単語」に拡張し、第1の文章の各シーン要素に対して第2の文章の全てのシーン要素を比較し、マッチングした当該第2の文章における「シーン順序」を導出する第2のステップと、
第1の文章のシーン要素と第2の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与する第3のステップと
を有し、当該ポイントを第1の文章と第2の文章との間の類似度とすることを特徴とする。
コンテンツ文章収集部11は、コンテンツ毎に、大量のコンテンツ文章を蓄積したデータベースである。又は、コンテンツ文章収集部11は、ネットワークを介して、インターネットに接続された様々なサーバ群に蓄積されたコンテンツ文章を検索することができるものであってもよい。「コンテンツ文章」とは、例えば書籍や映画のようなコンテンツに関連するストーリー文章であって、例えばWikipedia(登録商標)のように当該コンテンツについて解説したものであってもよい。即ち、コンテンツそのものである必要はない。例えば当該コンテンツが映画である場合、そのストーリーの要約文であってもよい。コンテンツ文章収集部11によって収集されたコンテンツ文章は、シーン分析部13へ出力される。
クエリ文章入力部12は、ユーザから検索用のクエリ文章を受信し、そのクエリ文章をシーン分析部13へ出力する。クエリ文章入力部12は、ユーザによって操作される端末2から要求に対して、Webぺージを応答するものであってもよい。このWebページは、クエリ文章を入力可能な1つの「検索窓」及び「検索ボタン」を有する。入力可能なテキストは、単文に限られず、複文の入力も許容する。尚、マイクと音声認識機能を用いて、利用者の音声によるテキスト入力に対応してもよい。ここで、例えば以下のようなクエリ文章を受信したとする。
「お姫様と化け物が悪者をやっつけて、最後に彼らが結婚する」映画は?
シーン分析部13は、クエリ文章(第1の文章)及びコンテンツ文章(第2の文章)について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出する。
入力された文章に対して、述語項構造解析によって複文を単文に分割すると共に、各単文を形態素解析によって形態素に区分し、各形態素に対する格分析によって主語、目的語及び述語に区分する。
クエリ文章「お姫様と化け物が悪者をやっつけて、最後に彼らが結婚する」
述語項構造
「お姫様と化け物が悪者をやっつける/最後にお姫様と化け物(彼ら)が結婚する
目的語:「悪者」ヲ格 / 目的語:「――」ニ格
述語 :「やっつける」 / 述語 :「結婚する」
S131の述語項構造解析によって、文章が複文である場合、複数のシーンが含まれているとし、シーン順序を構成する。また、格を判定し、「主語」「目的語」「述語」に区分する。
述語項構造1「お姫様と化け物が悪者をやっつける」
主語 :「お姫様」「化け物」
目的語:「悪者」ヲ格
述語 :「やっつける」
述語項構造2「最後にお姫様と化け物(彼ら)が結婚する」
主語 :「お姫様」「化け物」
目的語:「――」ニ格
述語 :「結婚する」
単文を「1シーン」と定義し、文章毎に、複数のシーンを順序付けしてリスト化する。シーン毎に、「主語」「目的語」「述語」が登録される。「主語」「目的語」「述語」それぞれは、1以上の形態素からなり、1つの形態素からなる単純語(例えば山)と、複数の形態素からなる複合語(例えば山登り)とがある。
シーン:[<主語><目的語><述語>]
シーン要素1:<お姫様><悪者><やっつける>
<化け物>
シーン要素2:<お姫様><――><結婚する>
<化け物>
コンテンツシーン蓄積部14は、コンテンツ文章収集部11から出力された当該コンテンツ文章(識別子)毎に、シーン分析部13によって分析されたシーン要素群を蓄積する。コンテンツシーン蓄積部14は、マッチング部15から参照される。
図3は、本発明におけるマッチング部のフローチャートである。
マッチング部15は、類義語辞書部16を用いて、クエリ文章(第1の文章)の各シーン要素に含まれる原単語に類似する拡張単語を検索し、クエリ文章のシーン要素を「原単語+拡張単語」に拡張する。
<お姫様> -><姫><女性><ヒロイン>
<化け物> -><怪物><妖怪>
<悪者> -><敵><悪役>
<やっつける>-><戦う><殺す><追い払う>
<結婚する> -><恋に落ちる><結ばれる>
これによって、例えば以下ようなシーン要素も、マッチング対象とする。
シーン要素1:<お姫様> <悪者><やっつける>
<姫> <妖怪><戦う>
<ヒロイン><怪物><殺す>
・・・
シーン要素2:<女性><――><恋に落ちる>
<妖怪><――><結ばれる>
・・・
マッチング部15は、クエリ文章(第1の文章)の各シーン要素に対してコンテンツ文章(第2の文章)の全てのシーン要素を比較し、マッチングした当該コンテンツ第2の文章における「シーン順序」を導出する。即ち、当クエリ文章の当該シーン要素が、コンテンツ文章における何番目(シーン順序)に出現したかを導出する。これによって、出願頻度だけでなく、出現したシーン要素同士の先後関係も認識することができる。例えば、シーン要素同士の先後関係の一致/不一致によって、所定ポイント数の差をつけることによって、できる限りクエリ文章(例えばユーザの記憶に基づくシーンの出現順序)に合ったコンテンツ文章を検索することができる。
例えば、前述したクエリ文章のシーン要素1及び2と、以下のようなコンテンツ文章の全てのシーン要素とを比較する。
[映画:カリブ]
「・・・。お姫様は、海賊にさらわれて、彼らは恋に落ちた。・・・」
シーン要素1<お姫様><海賊><さらわれる>
<お姫様><海賊><恋に落ちる>
出現頻度:0
[映画:妖怪]
「・・・。ヒロインと妖怪は、恋に落ちて、一緒に悪者をやっつけた。・・・」
シーン要素1<ヒロイン><――><恋に落ちる>
<妖怪>
シーン要素2<ヒロイン><悪者><やっつける>
<妖怪>
出現頻度:2
シーン順序:シーン要素2->シーン要素1
[映画:野獣]
「・・・。怪物とお姫様は、敵をやっつけて、彼らは結ばれた。・・・」
シーン要素1<怪物> <敵><やっつける>
<お姫様>
シーン要素2<怪物><――><結ばれる>
<お姫様>
出現頻度:2
シーン順序:シーン要素1->シーン要素2
[映画:白雪姫]
「・・・。お姫様は、リンゴを食べて、王子様と結婚した。・・・」
シーン要素1<お姫様><リンゴ><食べる>
シーン要素2<お姫様><――><結婚する>
出現頻度:1
シーン順序:シーン要素2のみ
ポイント付与部17は、クエリ文章(第1の文章)のシーン要素とコンテンツ文章(第2の文章)のシーン要素との間のマッチングした数と、マッチングした先後のシーン要素同士の時系列順序が一致した数とが多いほど、高いポイントを付与する。図3によれば、当該クエリ文章のシーン要素に対して、コンテンツ文章毎のグラフが表されている。このグラフは、ポイント付与部17は、横軸にシーン順序に応じてシーン要素を並べ、縦軸にポイント数を記述したものである。横軸は、所定単位の順序数毎に、ポイント数が計数されている。
クエリ文章の1つのシーン要素が出現した ->1ポイント
出現した先後のシーン要素のシーン順序が一致した->1ポイント
これによって、コンテンツ文章毎に、ポイント数の平均値を算出する。そして、その平均値を類似度として、類似度が最も高いコンテンツ文章を検索結果として選択する。
(10ポイント)
クエリ文章の「シーン要素の原単語で」出現した、且つ、
出現した先後のシーン要素の「シーン順序が一致」した
(8ポイント)
クエリ文章の「シーン要素の拡張表現で」出現した、且つ、
出現した先後のシーン要素の「シーン順序が一致」した
(5ポイント)
クエリ文章の「シーン要素の原単語又は拡張表現で」出現した、且つ、
出現した先後のシーン要素の「シーン順序が不一致」だった
(3ポイント)
クエリ文章の「シーン要素の主語、目的語、述語が、所定文範囲内
(例えば前後10文(前後10個のシーン要素)以内)に」出現した
※前後10文程度の所定文範囲内の近隣に、クエリ文章のシーン要素の各原単語が
離れて存在する場合を想定している。
(1ポイント)
クエリ文章の「シーン要素のいずれの単語」が出現した
検索結果出力部18は、検索結果として、2つの文章間の類似度、又は、クエリ文章に最も類似するコンテンツ文章の識別子(コンテンツ名)を出力する。具体的には、ポイント付与部17におけるポイントが最も高いコンテンツ文章を、クエリ文章に対する類似検索結果として出力する。ポイント数の降順に、複数のコンテンツ文章のコンテンツ名を並べて出力するものであってもよい。尚、検索結果出力部18は、ユーザによって操作される端末2からのクエリ文章の要求に対して、Webぺージを応答するものであってもよい。
11 コンテンツ文章収集部
12 クエリ文章入力部
13 シーン分析部
14 コンテンツシーン蓄積部
15 マッチング部
16 類義語辞書部
17 ポイント付与部
18 検索結果出力部
2 端末
3 サーバ
Claims (6)
- 装置に搭載されたコンピュータを、第1の文章と第2の文章との間の類似度を導出するように機能させる類似検索プログラムにおいて、
第1の文章及び第2の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出するシーン分析手段と、
類義語辞書部を用いて、第1の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第1の文章のシーン要素を「原単語+拡張単語」に拡張し、第1の文章の各シーン要素に対して第2の文章の全てのシーン要素を比較し、マッチングした当該第2の文章における「シーン順序」を導出するマッチング手段と、
第1の文章のシーン要素と第2の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与するポイント付与手段と
してコンピュータを機能させ、当該ポイントを第1の文章と第2の文章との間の類似度とすることを特徴とする類似検索プログラム。 - 前記ポイント付与手段は、第1の軸にシーン順序に応じて前記シーン要素を並べ、第2の軸にポイント数を記述したグラフに記録する
ようにコンピュータを機能させることを特徴とする請求項1に記載の類似検索プログラム。 - 第1の文章は、検索用のクエリ文章であって、前記シーン分析手段によってリアルタイムに分析されると共に、
第2の文章は、検索対象用のコンテンツ文章であって、前記シーン分析手段によって予め大量に分析され、分析結果となる第2の文章のシーン要素としてコンテンツシーン蓄積手段に蓄積される
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載の類似検索プログラム。 - 前記シーン分析手段は、入力された文章に対し、述語項構造解析によって複文を単文に分割すると共に、各単文を形態素解析によって形態素に区分し、各形態素に対する格分析によって主語、目的語及び述語に区分する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の類似検索プログラム。 - 装置に搭載されたコンピュータを、第1の文章と第2の文章との間の類似度を導出する類似検索装置において、
第1の文章及び第2の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出するシーン分析手段と、
類義語辞書部を用いて、第1の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第1の文章のシーン要素を「原単語+拡張単語」に拡張し、第1の文章の各シーン要素に対して第2の文章の全てのシーン要素を比較し、マッチングした当該第2の文章における「シーン順序」を導出するマッチング手段と、
第1の文章のシーン要素と第2の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与するポイント付与手段と
を有し、当該ポイントを第1の文章と第2の文章との間の類似度とすることを特徴とする類似検索装置。 - 装置を用いて、第1の文章と第2の文章との間の類似度を導出する類似検索方法において、
第1の文章及び第2の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出する第1のステップと、
類義語辞書部を用いて、第1の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第1の文章のシーン要素を「原単語+拡張単語」に拡張し、第1の文章の各シーン要素に対して第2の文章の全てのシーン要素を比較し、マッチングした当該第2の文章における「シーン順序」を導出する第2のステップと、
第1の文章のシーン要素と第2の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与する第3のステップと
を有し、当該ポイントを第1の文章と第2の文章との間の類似度とすることを特徴とする類似検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014007286A JP6165068B2 (ja) | 2014-01-17 | 2014-01-17 | ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014007286A JP6165068B2 (ja) | 2014-01-17 | 2014-01-17 | ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015135637A JP2015135637A (ja) | 2015-07-27 |
JP6165068B2 true JP6165068B2 (ja) | 2017-07-19 |
Family
ID=53767407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014007286A Active JP6165068B2 (ja) | 2014-01-17 | 2014-01-17 | ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6165068B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101887474B1 (ko) * | 2017-02-03 | 2018-08-10 | (주)브레인콜라 | 서적 간 유사도를 활용한 서적추천 방법 |
JP7139728B2 (ja) * | 2018-06-29 | 2022-09-21 | 富士通株式会社 | 分類方法、装置、及びプログラム |
JP7131130B2 (ja) * | 2018-06-29 | 2022-09-06 | 富士通株式会社 | 分類方法、装置、及びプログラム |
WO2020022537A1 (ko) * | 2018-07-27 | 2020-01-30 | (주)브레인콜라 | 서적 간 유사도를 활용한 서적추천 방법 |
WO2020022536A1 (ko) * | 2018-07-27 | 2020-01-30 | (주)브레인콜라 | 서적 간 유사도를 활용한 서적추천 방법 |
CN110941701B (zh) * | 2019-11-27 | 2023-02-28 | 珠海格力电器股份有限公司 | 语义分析样本集的优化方法、存储介质和计算设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4301496B2 (ja) * | 2003-10-27 | 2009-07-22 | 日本電信電話株式会社 | データベース検索装置、データベース検索方法およびプログラム |
JP4342575B2 (ja) * | 2007-06-25 | 2009-10-14 | 株式会社東芝 | キーワード提示のための装置、方法、及びプログラム |
JP5717297B2 (ja) * | 2012-02-28 | 2015-05-13 | Kddi株式会社 | 時系列情報を利用して文章をクエリ検索する検索プログラム、装置、方法及びサーバ |
-
2014
- 2014-01-17 JP JP2014007286A patent/JP6165068B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015135637A (ja) | 2015-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6165068B2 (ja) | ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法 | |
US11048882B2 (en) | Automatic semantic rating and abstraction of literature | |
JP6466952B2 (ja) | 文章生成システム | |
US8812301B2 (en) | Linguistically-adapted structural query annotation | |
JP6461980B2 (ja) | 検索結果におけるコヒーレントな質問回答 | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
WO2008016102A1 (fr) | dispositif de calcul de similarité et dispositif de recherche d'informations | |
WO2015188719A1 (zh) | 结构化数据与图片的关联方法与关联装置 | |
de Boer et al. | Knowledge based query expansion in complex multimedia event detection | |
KR20090080822A (ko) | 감성 기반의 아이템 검색 서비스 제공 방법, 데이터베이스구축 방법 및 검색 서버 | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
Aksyonoff | Introduction to Search with Sphinx: From installation to relevance tuning | |
Choi et al. | Music subject classification based on lyrics and user interpretations | |
Taneva et al. | Gem-based entity-knowledge maintenance | |
CN108140034B (zh) | 使用主题模型基于接收的词项选择内容项目 | |
JP5717297B2 (ja) | 時系列情報を利用して文章をクエリ検索する検索プログラム、装置、方法及びサーバ | |
JP2016081265A (ja) | 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム | |
JP2015036892A (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
JP5982174B2 (ja) | 類似度算出装置、類似番組検索装置、およびそのプログラム | |
CN113672768A (zh) | 用于内容发现的人工智能 | |
JP2006139484A (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
Koto et al. | The use of semantic and acoustic features for open-domain TED talk summarization | |
JP6054816B2 (ja) | 複数のコンテンツの検索結果にユーザ選択用のヒント情報を明示するプログラム、装置及び方法 | |
JP2009271785A (ja) | 情報提供方法及び装置及びコンピュータ読み取り可能な記録媒体 | |
JP6625087B2 (ja) | 違法コンテンツ探索装置及び違法コンテンツ探索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160707 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170417 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170526 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170608 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170620 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6165068 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |