JP6165068B2 - ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法 - Google Patents

ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法 Download PDF

Info

Publication number
JP6165068B2
JP6165068B2 JP2014007286A JP2014007286A JP6165068B2 JP 6165068 B2 JP6165068 B2 JP 6165068B2 JP 2014007286 A JP2014007286 A JP 2014007286A JP 2014007286 A JP2014007286 A JP 2014007286A JP 6165068 B2 JP6165068 B2 JP 6165068B2
Authority
JP
Japan
Prior art keywords
sentence
scene
scene element
analysis
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014007286A
Other languages
English (en)
Other versions
JP2015135637A (ja
Inventor
服部 元
元 服部
滝嶋 康弘
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2014007286A priority Critical patent/JP6165068B2/ja
Publication of JP2015135637A publication Critical patent/JP2015135637A/ja
Application granted granted Critical
Publication of JP6165068B2 publication Critical patent/JP6165068B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ストーリー(話の流れ)を持つ文章間の類似度を導出する技術に関する。特に、入力されたクエリ文章に対応する、ストーリー性のあるコンテンツ文章を検索する技術に適用する。
例えば書籍や映画のようなストーリーを持つコンテンツ文章には、検索を可能とするために、あらすじ、セリフ、画像、音楽、感覚要素、対象者要素(年齢層、性別など)、ジャンル等の属性情報が付与されている。従来、検索装置は、ユーザが1つ以上の属性をクエリ(キーワード)として入力し、そのクエリと一致する属性情報を持つコンテンツ文章を検索結果として出力する技術がある(例えば特許文献1参照)。
また、例えば書籍のコンテンツについて、ユーザにとって題名、作者名、出版社名等が不明であっても、その内容や画像をキーとして、所望の図書を検索することができる技術がある(例えば特許文献2参照)。この技術によれば、書誌データ「題名,作者名,出版社名等」に、「発行日,国際標準図書番号,図書サイズ,図書ページ数、読解データ(あらすじ情報と、図書内容を表す複数の単語情報)、画像データ」を含めたものである。これによって、読解データを対象とした検索も可能となる。
特開2004−062654号公報 特開2002−132786号公報
前述した特許文献1及び2のような従来技術によれば、ユーザによって入力されたクエリ文章を、形態素に解析し、それら単語の出現頻度に応じて類似度が判定されている。即ち、検索装置によれば、クエリ文章の単語の出現頻度が多いコンテンツ文章ほど、検索結果として優先的に選択されることとなる。
これに対し、本願の発明者らは、「クエリ文章であっても、ストーリーを持つ1つのコンテンツであるのではないか?」と考えた。即ち、クエリ文章であってもコンテンツ文章であっても、それら文章に含まれる各文の順序は、話の流れでの1つであると考えた。クエリ文章の単語の出現頻度が多いコンテンツ文章であっても、話の流れが異なる場合、検索結果として優先的に選択されるべきではない。
そこで、本発明は、単語の出現頻度のみならず、文章間の話の流れも考慮して類似度を導出する類似検索プログラム、装置及び方法を提供することを目的とする。
本発明によれば、装置に搭載されたコンピュータを、第1の文章と第2の文章との間の類似度を導出するように機能させる類似検索プログラムにおいて、
第1の文章及び第2の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出するシーン分析手段と、
類義語辞書部を用いて、第1の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第1の文章のシーン要素を「原単語+拡張単語」に拡張し、第1の文章の各シーン要素に対して第2の文章の全てのシーン要素を比較し、マッチングした当該第2の文章における「シーン順序」を導出するマッチング手段と、
第1の文章のシーン要素と第2の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与するポイント付与手段と
してコンピュータを機能させ、当該ポイントを第1の文章と第2の文章との間の類似度とすることを特徴とする。
本発明の類似検索プログラムにおける他の実施形態によれば、
ポイント付与手段は、第1の軸にシーン順序に応じてシーン要素を並べ、第2の軸にポイント数を記述したグラフに記録する
ようにコンピュータを機能させることも好ましい。
本発明の類似検索プログラムにおける他の実施形態によれば、
第1の文章は、検索用のクエリ文章であって、シーン分析手段によってリアルタイムに分析されると共に、
第2の文章は、検索対象用のコンテンツ文章であって、シーン分析手段によって予め大量に分析され、分析結果となる第2の文章のシーン要素としてコンテンツシーン蓄積手段に蓄積される
ようにコンピュータを機能させることも好ましい。
本発明の類似検索プログラムにおける他の実施形態によれば、
シーン分析手段は、入力された文章に対し、述語項構造解析によって複文を単文に分割すると共に、各単文を形態素解析によって形態素に区分し、各形態素に対する格分析によって主語、目的語及び述語に区分する
ようにコンピュータを機能させることも好ましい。
本発明によれば、装置に搭載されたコンピュータを、第1の文章と第2の文章との間の類似度を導出する類似検索装置において、
第1の文章及び第2の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出するシーン分析手段と、
類義語辞書部を用いて、第1の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第1の文章のシーン要素を「原単語+拡張単語」に拡張し、第1の文章の各シーン要素に対して第2の文章の全てのシーン要素を比較し、マッチングした当該第2の文章における「シーン順序」を導出するマッチング手段と、
第1の文章のシーン要素と第2の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与するポイント付与手段と
を有し、当該ポイントを第1の文章と第2の文章との間の類似度とすることを特徴とする。
本発明によれば、装置を用いて、第1の文章と第2の文章との間の類似度を導出する類似検索方法において、
第1の文章及び第2の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出する第1のステップと、
類義語辞書部を用いて、第1の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第1の文章のシーン要素を「原単語+拡張単語」に拡張し、第1の文章の各シーン要素に対して第2の文章の全てのシーン要素を比較し、マッチングした当該第2の文章における「シーン順序」を導出する第2のステップと、
第1の文章のシーン要素と第2の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与する第3のステップと
を有し、当該ポイントを第1の文章と第2の文章との間の類似度とすることを特徴とする。
本発明のプログラム、装置及び方法によれば、単語の出現頻度のみならず、文章間の話の流れも考慮して類似度を導出することができる。
本発明における類似検索装置の機能構成図である。 本発明におけるシーン分析部のフローチャートである。 本発明におけるマッチング部のフローチャートである。 検索結果を表す画面イメージである。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
本発明の基本的機能としては、第1の文章と第2の文章との間の類似度を導出するものである。この機能によれば、第1の文章を検索用のクエリ文章とし、第2の文章を検索対象用のコンテンツ文章として、類似度の高いコンテンツ文章を検索することができる。以下では、実施形態として、コンテンツ(例えば書籍や映画など)を対象とした検索について、利用者が入力したクエリ文章(ストーリーにおけるシーンの一部)に対して、類似度が高いコンテンツを検索する類似検索装置について説明する。
図1は、本発明における類似検索装置の機能構成図である。
類似検索装置1は、ユーザによって操作される端末2から、クエリ文章を受信し、そのクエリ文章をキーとして複数のコンテンツを検索する。図1によれば、類似検索装置1は、コンテンツ文章収集部11と、クエリ文章入力部12と、シーン分析部13と、コンテンツシーン蓄積部14と、マッチング部15と、類義語辞書部16と、ポイント付与部17と、検索結果出力部18とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。図1の機能構成部の処理の流れによれば、類似検索方法としても理解できる。
[コンテンツ文章収集部11]
コンテンツ文章収集部11は、コンテンツ毎に、大量のコンテンツ文章を蓄積したデータベースである。又は、コンテンツ文章収集部11は、ネットワークを介して、インターネットに接続された様々なサーバ群に蓄積されたコンテンツ文章を検索することができるものであってもよい。「コンテンツ文章」とは、例えば書籍や映画のようなコンテンツに関連するストーリー文章であって、例えばWikipedia(登録商標)のように当該コンテンツについて解説したものであってもよい。即ち、コンテンツそのものである必要はない。例えば当該コンテンツが映画である場合、そのストーリーの要約文であってもよい。コンテンツ文章収集部11によって収集されたコンテンツ文章は、シーン分析部13へ出力される。
[クエリ文章入力部12]
クエリ文章入力部12は、ユーザから検索用のクエリ文章を受信し、そのクエリ文章をシーン分析部13へ出力する。クエリ文章入力部12は、ユーザによって操作される端末2から要求に対して、Webぺージを応答するものであってもよい。このWebページは、クエリ文章を入力可能な1つの「検索窓」及び「検索ボタン」を有する。入力可能なテキストは、単文に限られず、複文の入力も許容する。尚、マイクと音声認識機能を用いて、利用者の音声によるテキスト入力に対応してもよい。ここで、例えば以下のようなクエリ文章を受信したとする。
「お姫様と化け物が悪者をやっつけて、最後に彼らが結婚する」映画は?
[シーン分析部13]
シーン分析部13は、クエリ文章(第1の文章)及びコンテンツ文章(第2の文章)について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出する。
検索用のクエリ文章は、シーン分析部13によってリアルタイムに分析される。一方で、検索対象用のコンテンツ文章は、シーン分析部13によって予め大量に分析され、分析結果となるコンテンツのシーン要素としてコンテンツシーン蓄積部14に蓄積される。
図2は、本発明におけるシーン分析部のフローチャートである。
(S131)述語項構造解析
入力された文章に対して、述語項構造解析によって複文を単文に分割すると共に、各単文を形態素解析によって形態素に区分し、各形態素に対する格分析によって主語、目的語及び述語に区分する。
「述語項構造」とは、文章中の述語に対して「項」となる名詞句等を当てたものである。述語項構造を用いることによって、文章の意味の骨格を把握することができる。述語項構造解析として、例えばフリーソフトであるSyncha等の述語項構造解析器を用いることができる。また、「形態素」とは、ある言語について意味を持つ最小の単位をいい、それ以上分解したら意味をなさなくなる単位まで分解された各音素をいう。
述語項構造は、「述語」に対する「目的語」(及び主語)とその「格」とから構成される。例えば「悪者をやっつける」の述語項構造は、述語「やっつける」に対して目的語「悪者」及び格「ヲ」からなる。また、例えば「結婚する」の述語項構造は、述語「結婚する」に対して目的語「――」及び格「ニ」からなる。尚、述語項構造解析は、代名詞についても、前述した名詞を自動的に補完する。
クエリ文章「お姫様と化け物が悪者をやっつけて、最後に彼らが結婚する」
述語項構造
「お姫様と化け物が悪者をやっつける/最後にお姫様と化け物(彼ら)が結婚する
目的語:「悪者」ヲ格 / 目的語:「――」ニ格
述語 :「やっつける」 / 述語 :「結婚する」
(S132)シーン表現抽出
S131の述語項構造解析によって、文章が複文である場合、複数のシーンが含まれているとし、シーン順序を構成する。また、格を判定し、「主語」「目的語」「述語」に区分する。
述語項構造1「お姫様と化け物が悪者をやっつける」
主語 :「お姫様」「化け物」
目的語:「悪者」ヲ格
述語 :「やっつける」
述語項構造2「最後にお姫様と化け物(彼ら)が結婚する」
主語 :「お姫様」「化け物」
目的語:「――」ニ格
述語 :「結婚する」
(S133)シーン要素構成
単文を「1シーン」と定義し、文章毎に、複数のシーンを順序付けしてリスト化する。シーン毎に、「主語」「目的語」「述語」が登録される。「主語」「目的語」「述語」それぞれは、1以上の形態素からなり、1つの形態素からなる単純語(例えば山)と、複数の形態素からなる複合語(例えば山登り)とがある。
シーン:[<主語><目的語><述語>]
シーン要素1:<お姫様><悪者><やっつける>
<化け物>
シーン要素2:<お姫様><――><結婚する>
<化け物>
シーン分析部13は、コンテンツ文章に基づくシーン要素を、コンテンツ蓄積部14へ出力し、クエリ文章に基づくシーン要素を、マッチング部15へ出力する。
[コンテンツシーン蓄積部14]
コンテンツシーン蓄積部14は、コンテンツ文章収集部11から出力された当該コンテンツ文章(識別子)毎に、シーン分析部13によって分析されたシーン要素群を蓄積する。コンテンツシーン蓄積部14は、マッチング部15から参照される。
[マッチング部15]
図3は、本発明におけるマッチング部のフローチャートである。
(S131)シーン表現拡張
マッチング部15は、類義語辞書部16を用いて、クエリ文章(第1の文章)の各シーン要素に含まれる原単語に類似する拡張単語を検索し、クエリ文章のシーン要素を「原単語+拡張単語」に拡張する。
<お姫様> -><姫><女性><ヒロイン>
<化け物> -><怪物><妖怪>
<悪者> -><敵><悪役>
<やっつける>-><戦う><殺す><追い払う>
<結婚する> -><恋に落ちる><結ばれる>
これによって、例えば以下ようなシーン要素も、マッチング対象とする。
シーン要素1:<お姫様> <悪者><やっつける>
<姫> <妖怪><戦う>
<ヒロイン><怪物><殺す>
・・・
シーン要素2:<女性><――><恋に落ちる>
<妖怪><――><結ばれる>
・・・
(S132)マッチング位置抽出
マッチング部15は、クエリ文章(第1の文章)の各シーン要素に対してコンテンツ文章(第2の文章)の全てのシーン要素を比較し、マッチングした当該コンテンツ第2の文章における「シーン順序」を導出する。即ち、当クエリ文章の当該シーン要素が、コンテンツ文章における何番目(シーン順序)に出現したかを導出する。これによって、出願頻度だけでなく、出現したシーン要素同士の先後関係も認識することができる。例えば、シーン要素同士の先後関係の一致/不一致によって、所定ポイント数の差をつけることによって、できる限りクエリ文章(例えばユーザの記憶に基づくシーンの出現順序)に合ったコンテンツ文章を検索することができる。
<コンテンツ文章に対する出現頻度とシーン順序の抽出>
例えば、前述したクエリ文章のシーン要素1及び2と、以下のようなコンテンツ文章の全てのシーン要素とを比較する。
[映画:カリブ]
「・・・。お姫様は、海賊にさらわれて、彼らは恋に落ちた。・・・」
シーン要素1<お姫様><海賊><さらわれる>
<お姫様><海賊><恋に落ちる>
出現頻度:0
[映画:妖怪]
「・・・。ヒロインと妖怪は、恋に落ちて、一緒に悪者をやっつけた。・・・」
シーン要素1<ヒロイン><――><恋に落ちる>
<妖怪>
シーン要素2<ヒロイン><悪者><やっつける>
<妖怪>
出現頻度:2
シーン順序:シーン要素2->シーン要素1
[映画:野獣]
「・・・。怪物とお姫様は、敵をやっつけて、彼らは結ばれた。・・・」
シーン要素1<怪物> <敵><やっつける>
<お姫様>
シーン要素2<怪物><――><結ばれる>
<お姫様>
出現頻度:2
シーン順序:シーン要素1->シーン要素2
[映画:白雪姫]
「・・・。お姫様は、リンゴを食べて、王子様と結婚した。・・・」
シーン要素1<お姫様><リンゴ><食べる>
シーン要素2<お姫様><――><結婚する>
出現頻度:1
シーン順序:シーン要素2のみ
[ポイント付与部17]
ポイント付与部17は、クエリ文章(第1の文章)のシーン要素とコンテンツ文章(第2の文章)のシーン要素との間のマッチングした数と、マッチングした先後のシーン要素同士の時系列順序が一致した数とが多いほど、高いポイントを付与する。図3によれば、当該クエリ文章のシーン要素に対して、コンテンツ文章毎のグラフが表されている。このグラフは、ポイント付与部17は、横軸にシーン順序に応じてシーン要素を並べ、縦軸にポイント数を記述したものである。横軸は、所定単位の順序数毎に、ポイント数が計数されている。
最も簡単なポイント計数方法として、以下のようなものがある。
クエリ文章の1つのシーン要素が出現した ->1ポイント
出現した先後のシーン要素のシーン順序が一致した->1ポイント
これによって、コンテンツ文章毎に、ポイント数の平均値を算出する。そして、その平均値を類似度として、類似度が最も高いコンテンツ文章を検索結果として選択する。
ここで、ポイント数の計数方法として、以下のような順序で、高->低を規定することもできる。
(10ポイント)
クエリ文章の「シーン要素の原単語で」出現した、且つ、
出現した先後のシーン要素の「シーン順序が一致」した
(8ポイント)
クエリ文章の「シーン要素の拡張表現で」出現した、且つ、
出現した先後のシーン要素の「シーン順序が一致」した
(5ポイント)
クエリ文章の「シーン要素の原単語又は拡張表現で」出現した、且つ、
出現した先後のシーン要素の「シーン順序が不一致」だった
(3ポイント)
クエリ文章の「シーン要素の主語、目的語、述語が、所定文範囲内
(例えば前後10文(前後10個のシーン要素)以内)に」出現した
※前後10文程度の所定文範囲内の近隣に、クエリ文章のシーン要素の各原単語が
離れて存在する場合を想定している。
(1ポイント)
クエリ文章の「シーン要素のいずれの単語」が出現した
[検索結果出力部18]
検索結果出力部18は、検索結果として、2つの文章間の類似度、又は、クエリ文章に最も類似するコンテンツ文章の識別子(コンテンツ名)を出力する。具体的には、ポイント付与部17におけるポイントが最も高いコンテンツ文章を、クエリ文章に対する類似検索結果として出力する。ポイント数の降順に、複数のコンテンツ文章のコンテンツ名を並べて出力するものであってもよい。尚、検索結果出力部18は、ユーザによって操作される端末2からのクエリ文章の要求に対して、Webぺージを応答するものであってもよい。
図4は、検索結果を表す画面イメージである。
図4(a)によれば、クエリ文章として「お姫様と化け物が悪者をやっつけて、最後に彼らが結婚する」と入力されている。これに対し、ポイント数の降順に、コンテンツ文章「野獣」「妖怪」「白雪姫」「カリブ」が表示されている。ここで、ユーザが、最も類似度が高い「野獣」を選択したとする。
図4(b)によれば、映画「野獣」が再生されている。このとき、ポイント付与部17で記録されたグラフを用いて、ポイント数が最も高いシーン位置へジャンプして、その位置から再生を開始することもできる。コンテンツが書籍であれば、ポイント数が最も高いページ位置へジャンプして再生する。
以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、単語の出現頻度のみならず、文章間の話の流れも考慮して類似度を導出することができる。
特に、本発明によれば、クエリ文章に含まれる単語だけではなく、シーンとして検索するため、クエリ文章(例えばユーザが想定するストーリー文)に合う検索結果を優先的に出力することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 類似検索装置
11 コンテンツ文章収集部
12 クエリ文章入力部
13 シーン分析部
14 コンテンツシーン蓄積部
15 マッチング部
16 類義語辞書部
17 ポイント付与部
18 検索結果出力部
2 端末
3 サーバ

Claims (6)

  1. 装置に搭載されたコンピュータを、第1の文章と第2の文章との間の類似度を導出するように機能させる類似検索プログラムにおいて、
    第1の文章及び第2の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出するシーン分析手段と、
    類義語辞書部を用いて、第1の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第1の文章のシーン要素を「原単語+拡張単語」に拡張し、第1の文章の各シーン要素に対して第2の文章の全てのシーン要素を比較し、マッチングした当該第2の文章における「シーン順序」を導出するマッチング手段と、
    第1の文章のシーン要素と第2の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与するポイント付与手段と
    してコンピュータを機能させ、当該ポイントを第1の文章と第2の文章との間の類似度とすることを特徴とする類似検索プログラム。
  2. 前記ポイント付与手段は、第1の軸にシーン順序に応じて前記シーン要素を並べ、第2の軸にポイント数を記述したグラフに記録する
    ようにコンピュータを機能させることを特徴とする請求項に記載の類似検索プログラム。
  3. 第1の文章は、検索用のクエリ文章であって、前記シーン分析手段によってリアルタイムに分析されると共に、
    第2の文章は、検索対象用のコンテンツ文章であって、前記シーン分析手段によって予め大量に分析され、分析結果となる第2の文章のシーン要素としてコンテンツシーン蓄積手段に蓄積される
    ようにコンピュータを機能させることを特徴とする請求項1又は2に記載の類似検索プログラム。
  4. 前記シーン分析手段は、入力された文章に対し、述語項構造解析によって複文を単文に分割すると共に、各単文を形態素解析によって形態素に区分し、各形態素に対する格分析によって主語、目的語及び述語に区分する
    ようにコンピュータを機能させることを特徴とする請求項1からのいずれか1項に記載の類似検索プログラム。
  5. 装置に搭載されたコンピュータを、第1の文章と第2の文章との間の類似度を導出する類似検索装置において、
    第1の文章及び第2の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出するシーン分析手段と、
    類義語辞書部を用いて、第1の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第1の文章のシーン要素を「原単語+拡張単語」に拡張し、第1の文章の各シーン要素に対して第2の文章の全てのシーン要素を比較し、マッチングした当該第2の文章における「シーン順序」を導出するマッチング手段と、
    第1の文章のシーン要素と第2の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与するポイント付与手段と
    を有し、当該ポイントを第1の文章と第2の文章との間の類似度とすることを特徴とする類似検索装置。
  6. 装置を用いて、第1の文章と第2の文章との間の類似度を導出する類似検索方法において、
    第1の文章及び第2の文章について、複文分析及び格分析によって、文毎に「主語、目的語及び述語」の語間関係を含む「シーン要素」と、当該シーン要素が当該文章における先頭からの「シーン順序」とを対応付けて導出する第1のステップと、
    類義語辞書部を用いて、第1の文章の各シーン要素に含まれる原単語に類似する拡張単語を検索し、第1の文章のシーン要素を「原単語+拡張単語」に拡張し、第1の文章の各シーン要素に対して第2の文章の全てのシーン要素を比較し、マッチングした当該第2の文章における「シーン順序」を導出する第2のステップと、
    第1の文章のシーン要素と第2の文章のシーン要素とが「原言語」でマッチングした場合、「拡張単語」でマッチングするよりも高いポイントとなり、及び、マッチングした先後のシーン要素同士の時系列順序が一致した場合、不一致よりも高いポイントとなるように、ポイントを付与する第3のステップと
    を有し、当該ポイントを第1の文章と第2の文章との間の類似度とすることを特徴とする類似検索方法。
JP2014007286A 2014-01-17 2014-01-17 ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法 Active JP6165068B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014007286A JP6165068B2 (ja) 2014-01-17 2014-01-17 ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014007286A JP6165068B2 (ja) 2014-01-17 2014-01-17 ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法

Publications (2)

Publication Number Publication Date
JP2015135637A JP2015135637A (ja) 2015-07-27
JP6165068B2 true JP6165068B2 (ja) 2017-07-19

Family

ID=53767407

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014007286A Active JP6165068B2 (ja) 2014-01-17 2014-01-17 ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法

Country Status (1)

Country Link
JP (1) JP6165068B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101887474B1 (ko) * 2017-02-03 2018-08-10 (주)브레인콜라 서적 간 유사도를 활용한 서적추천 방법
JP7139728B2 (ja) * 2018-06-29 2022-09-21 富士通株式会社 分類方法、装置、及びプログラム
JP7131130B2 (ja) * 2018-06-29 2022-09-06 富士通株式会社 分類方法、装置、及びプログラム
WO2020022537A1 (ko) * 2018-07-27 2020-01-30 (주)브레인콜라 서적 간 유사도를 활용한 서적추천 방법
WO2020022536A1 (ko) * 2018-07-27 2020-01-30 (주)브레인콜라 서적 간 유사도를 활용한 서적추천 방법
CN110941701B (zh) * 2019-11-27 2023-02-28 珠海格力电器股份有限公司 语义分析样本集的优化方法、存储介质和计算设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4301496B2 (ja) * 2003-10-27 2009-07-22 日本電信電話株式会社 データベース検索装置、データベース検索方法およびプログラム
JP4342575B2 (ja) * 2007-06-25 2009-10-14 株式会社東芝 キーワード提示のための装置、方法、及びプログラム
JP5717297B2 (ja) * 2012-02-28 2015-05-13 Kddi株式会社 時系列情報を利用して文章をクエリ検索する検索プログラム、装置、方法及びサーバ

Also Published As

Publication number Publication date
JP2015135637A (ja) 2015-07-27

Similar Documents

Publication Publication Date Title
JP6165068B2 (ja) ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法
US11048882B2 (en) Automatic semantic rating and abstraction of literature
JP6466952B2 (ja) 文章生成システム
US8812301B2 (en) Linguistically-adapted structural query annotation
JP6461980B2 (ja) 検索結果におけるコヒーレントな質問回答
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
WO2008016102A1 (fr) dispositif de calcul de similarité et dispositif de recherche d'informations
WO2015188719A1 (zh) 结构化数据与图片的关联方法与关联装置
de Boer et al. Knowledge based query expansion in complex multimedia event detection
KR20090080822A (ko) 감성 기반의 아이템 검색 서비스 제공 방법, 데이터베이스구축 방법 및 검색 서버
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
Aksyonoff Introduction to Search with Sphinx: From installation to relevance tuning
Choi et al. Music subject classification based on lyrics and user interpretations
Taneva et al. Gem-based entity-knowledge maintenance
CN108140034B (zh) 使用主题模型基于接收的词项选择内容项目
JP5717297B2 (ja) 時系列情報を利用して文章をクエリ検索する検索プログラム、装置、方法及びサーバ
JP2016081265A (ja) 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム
JP2015036892A (ja) 情報処理装置、情報処理方法、及び、プログラム
JP5982174B2 (ja) 類似度算出装置、類似番組検索装置、およびそのプログラム
CN113672768A (zh) 用于内容发现的人工智能
JP2006139484A (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
Koto et al. The use of semantic and acoustic features for open-domain TED talk summarization
JP6054816B2 (ja) 複数のコンテンツの検索結果にユーザ選択用のヒント情報を明示するプログラム、装置及び方法
JP2009271785A (ja) 情報提供方法及び装置及びコンピュータ読み取り可能な記録媒体
JP6625087B2 (ja) 違法コンテンツ探索装置及び違法コンテンツ探索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170417

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170608

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170620

R150 Certificate of patent or registration of utility model

Ref document number: 6165068

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150