JP2019008572A

JP2019008572A - 類似文書検索装置、類似性計算装置、これらの方法及びプログラム

Info

Publication number: JP2019008572A
Application number: JP2017123989A
Authority: JP
Inventors: 正嗣服部; Masatsugu Hattori; 早苗藤田; Sanae Fujita; 一生青山; Kazuo Aoyama; 優子奥村; Yuko Okumura; 哲生小林; Tetsuo Kobayashi
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-06-26
Filing date: 2017-06-26
Publication date: 2019-01-17
Anticipated expiration: 2037-06-26
Also published as: JP6646014B2

Abstract

【課題】感想文の作成、タグの付与等の文書に対する人手による作業が不要な文書検索技術を提供する。【解決手段】文書はその文書を所定の単位で分割することにより得られる複数のセグメントにより構成されているとし、文書の属性頻度系列情報をその文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度の系列を表す情報として、類似文書検索装置は、各文書の属性頻度系列情報が記憶されている属性頻度系列情報記憶部４と、属性頻度系列情報記憶部４から読み込んだ各文書の属性頻度系列情報と、入力された属性頻度系列情報との類似性を計算する類似性計算部５と、計算された類似性が高い文書についての情報を出力する類似文書情報出力部６と、を備えている。【選択図】図１

Description

この発明は、文書を検索する技術並びに文書の検索及び表示に用いられる技術に関する。

「ハッピーエンドの本を読んであげたい。」「たまには悲しいお話を読んであげよう。」等の、話の類型に基づく絵本等の文書を検索したいという需要がある。

話の類型に基づく絵本等の文書の検索は、以下の２個の方法により実現することができる。

１個目の方法は、予め作成された、文書の感想文に基づいて、話の類型に基づく絵本等の文書の検索を行うというものである。例えば、「ハッピーエンド」「悲しいお話」をキーワードとして文書の感想文の一致検索を行うことができる。

２個目の方法は、「ハッピーエンド」「悲しいお話」等のタグを文書に予め人手で付与しておき、このタグをキーワードとして検索を行うというものである（例えば、非特許文献１参照。）。

鳴門教育大学附属図書館、"絵本データベース"、［平成２９年４月１４日検索］、インターネット〈URL：http://www.naruto-u.ac.jp/library/jidou/005.html〉

しかし、上記の１個目の方法では、発売間もない、人気がない等の理由により絵本に感想文がない場合には、検索を行うことができないという問題がある。また、上記の２個目の方法では、人手によるタグの付与の負担が大きいという問題がある。

この発明の目的は、感想文の作成、タグの付与等の文書に対する人手による作業が不要な類似文書検索装置、例えば類似文書検索装置に用いられる類似性計算装置、これらの方法及びプログラムを提供することである。

この発明の一態様による類似性計算装置は、文書はその文書を所定の単位で分割することにより得られる複数のセグメントにより構成されているとし、文書の属性頻度系列情報をその文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度の系列を表す情報として、各文書の属性頻度系列情報が記憶されている属性頻度系列情報記憶部と、上記属性頻度系列情報記憶部から読み込んだある文書の属性頻度系列情報と、入力された属性頻度系列情報との類似性を計算する類似性計算部と、を備えている。

この発明の一態様による類似文書検索装置は、上記類似性計算装置を含み、上記類似性計算部は、上記属性頻度系列情報記憶部から読み込んだ各文書の属性頻度系列情報と、入力された属性頻度系列情報との類似性を計算し、上記計算された類似性が高い文書についての情報を出力する類似文書情報出力部を更に備えている。

感想文の作成、タグの付与等の文書に対する人手による作業が不要となる。

類似文書検索装置の例を示すブロック図。類似文書検索方法の例を示す流れ図。属性頻度系列情報の例を示す図。属性頻度系列情報の例を示す図。ヒストグラムの正規化の例を説明するための図。ヒストグラムの正規化の例を説明するための図。ヒストグラムの正規化の例を説明するための図。属性頻度系列情報の選択の例を説明するための図。属性頻度系列情報の選択の例を説明するための図。属性頻度系列情報の選択の例を説明するための図。属性頻度系列情報の描写の例を説明するための図。類似文書検索結果の例を示す図。類似文書検索結果の例を示す図。所定の単位又は所定のビンの数の設定の例を説明するための図。所定の単位又は所定のビンの数の設定の例を説明するための図。所定の単位又は所定のビンの数の設定の例を説明するための図。所定の単位又は所定のビンの数の設定の例を説明するための図。類似文書検索結果の例を示す図。所定の単位又は所定のビンの数の設定の例を説明するための図。

［実施形態］
以下、図面を参照して、この発明の一実施形態について説明する。

図１に、類似文書検索装置の構成例を示す。類似文書検索装置は、図１に示すように、単語抽出部１、単語属性記憶部２、属性頻度系列情報生成部３、属性頻度系列情報記憶部４、類似性計算部５、類似文書情報出力部６及び表示部７を例えば備えている。表示部７は、粒度設定部７１及び入力部７２を含んでいる。

類似文書検索方法は、類似文書検索装置の各部が、図２に示すステップＳ１からステップＳ７の処理を行うことにより例えば実現される。

類似性計算装置２０は、図１に示すように、単語抽出部１、単語属性記憶部２、属性頻度系列情報生成部３、属性頻度系列情報記憶部４、類似性計算部５を例えば備えている。

類似性計算方法は、類似性計算装置の各部が、図２に示すステップＳ１からステップＳ５の処理を行うことにより例えば実現される。

＜単語抽出部１＞
単語抽出部１は、文書を入力とし、入力された各文書を構成する複数のセグメントのそれぞれに含まれる単語を抽出し（ステップＳ１）、抽出した単語を属性頻度系列情報生成部３に出力する。

文書は、文字や絵が記載された、書籍、雑誌、新聞等の紙媒体の文書であってもよいし、ウェブページ、電子書籍、ソースコード等の電子媒体の電子文書であってもよい。文書の一例は、絵本である。また、電子文書の例は、XML等のマークアップ言語で記述され、構造化された電子文書である。

文書は、その文書を所定の単位で分割することにより得られる複数のセグメントにより構成されているとする。所定の単位は、センテンス、ページ、段落、章等の文書を構成する単位のことである。このように、所定の単位は、ページ等の表示上の制約による区切りであってもよいし、作者が意図的に話を区切った区切りである段落、章（章は作者がストーリーの展開をまとめているもの）であってもよい。

文書がXML等のマークアップ言語で記述され、構造化された電子文書である場合には、構造化された電子文書の要素を所定の単位とすることができる。所定の単位は、上記に例示した文書を構成する単位の複数個であってもよい。例えば、所定の単位は、１ページであってもよいし、２ページであってもよい。なお、後述するように、粒度設定部７１により、所定の単位の大きさが設定される場合がある。

例えば、文書が絵本である場合には、表示上の制約による区切りの例であるページを所定の単位としてもよい。これは、絵本は、絵と文字が相補的に用いられているコンテンツであり、ページを１つの単位としてデザインされていることが多いため、ページを所定の単位とすることによりストーリー展開が表しやすくなるためである。

比較的低年齢に向けて書かれており、見開きの２ページを１つの単位としてデザインされている絵本が文書である場合には、２ページを所定の単位としてもよい。

また、文書が児童書及び小説等のストーリーが比較的長く複雑な文書である場合には、作者が意図的に話を区切った区切りの例である章を所定の単位としてもよい。これは、このような文書に対しては、単に「表示上の制約による区切り」を所定の単位とするよりも「作者が意図的にお話を区切った区切り」を所定の単位とした方がストーリー展開を表しやすいためである。

単語の抽出は、例えば、文書を形態素解析した後に、その形態素解析の結果から自立語（名詞、動詞、形容詞等それ自体で意味をなす語）と打消し表現（助動詞「ない」、形容詞「悪い」など）を抜き出すことにより行うことができる。形態素解析処理によって、入力文書の分割を行い、品詞単位での分割による単語列を抽出し、それぞれの単語に品詞を付与し、特定の品詞に該当する単語を取り出す処理を行うことによって、自立語とそれに付随する打消し表現を抜き出す。

所定の単位が１ページである場合には、各文書のページごとに、各ページに含まれる単語が抽出される。例えば、ある文書のページ１に「戦争がはじまった。肉食獣は殺された。」という文章が記載され、ページ２に「ゾウは素晴らしい芸をするが、動物園職員は楽しめない。」、ページ３に「結局、ゾウも死んだ。」と記載されているとする。この場合、ページ１からは、「戦争がはじまった。肉食獣は殺された。」という文章から、形態素解析器を用いることで例えば下記のような形態素解析結果が得られる。
戦争名詞,サ変接続,*,*,*,*,戦争,センソウ,センソー
が助詞,格助詞,一般,*,*,*,が,ガ,ガ
はじまっ動詞,自立,*,*,五段・ラ行,連用タ接続,はじまる,ハジマッ,ハジマッ
た助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。記号,句点,*,*,*,*,。,。,。
肉食名詞,サ変接続,*,*,*,*,肉食,ニクショク,ニクショク
獣名詞,接尾,一般,*,*,*,獣,ジュウ,ジュウ
は助詞,係助詞,*,*,*,*,は,ハ,ワ
殺さ動詞,自立,*,*,五段・サ行,未然形,殺す,コロサ,コロサ
れ動詞,接尾,*,*,一段,連用形,れる,レ,レ
た助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。記号,句点,*,*,*,*,。,。,。
EOS

もとの文章から分かち書かれた単語の出現形の後に、コンマ区切りで品詞情報（最初の２要素）やその標準形（６番目の要素）が得られる。品詞情報が自立語に該当するものの標準形を抽出すると、自立語である「戦争」「はじまる」「肉食」「獣」「殺す」という単語が得られる。また、ページ２からは、「ゾウは素晴らしい芸をするが、動物園職員は楽しめない。」という文章から、例えば下記のような形態素解析結果が得られる。
ゾウ名詞,普通名詞,一般,*,*,*,ゾウ,象,ゾウ,ゾー,ゾウ,ゾー,漢,*,*,*,*
は助詞,係助詞,*,*,*,*,ハ,は,は,ワ,は,ワ,和,*,*,*,*
素晴らしい形容詞,一般,*,*,形容詞,連体形-一般,スバラシイ,素晴らしい,素晴らしい,スバラシー,素晴らしい,スバラシー,和,*,*,*,*
芸名詞,普通名詞,一般,*,*,*,ゲイ,芸,芸,ゲー,芸,ゲー,漢,*,*,*,*
を助詞,格助詞,*,*,*,*,ヲ,を,を,オ,を,オ,和,*,*,*,*
する動詞,非自立可能,*,*,サ行変格,終止形-一般,スル,為る,する,スル,する,スル, 和,*,*,*,*
が助詞,接続助詞,*,*,*,*,ガ,が,が,ガ,が,ガ,和,*,*,*,*
、補助記号,読点,*,*,*,*,,、,、,,、,,記号,*,*,*,*
動物名詞,普通名詞,一般,*,*,*,ドウブツ,動物,動物,ドーブツ,動物,ドーブツ,漢,*,*,*,*
園接尾辞,名詞的,一般,*,*,*,エン,園,園,エン,園,エン,漢,*,*,*,*
職員名詞,普通名詞,一般,*,*,*,ショクイン,職員,職員,ショクイン,職員,ショクイン,漢,*,*,*,*
は助詞,係助詞,*,*,*,*,ハ,は,は,ワ,は,ワ,和,*,*,*,*
楽しめ動詞,一般,*,*,下一段-マ行,未然形-一般,タノシム,楽しむ,楽しめ,タノシメ,楽しめる,タノシメル,和,*,*,*,*
ない助動詞,*,*,*,助動詞-ナイ,終止形-一般,ナイ,ない,ない,ナイ,ない,ナイ,和,*,*,*,*
。補助記号,句点,*,*,*,*,,。,。,,。,,記号,*,*,*,*
EOS

前述の方法と同様の方法により、「ゾウ」「素晴らしい」「芸」「動物」「園」「職員」「楽しむ」という単語が抽出され、そのうち、「楽しむ」には直後に否定あるいは打ち消しを表す助動詞「ない」が存在することから、「楽しむ（打ち消し）」と記録する。また、ページ３からは、「結局、ゾウも死んだ。」という文章から例えば下記のような形態素解析結果が得られる。
結局名詞,副詞可能,*,*,*,*,結局,ケッキョク,ケッキョク
、記号,読点,*,*,*,*,、,、,、
ゾウ名詞,一般,*,*,*,*,ゾウ,ゾウ,ゾー
も助詞,係助詞,*,*,*,*,も,モ,モ
死ん動詞,自立,*,*,五段・ナ行,連用タ接続,死ぬ,シン,シン
だ助動詞,*,*,*,特殊・タ,基本形,だ,ダ,ダ
。記号,句点,*,*,*,*,。,。,。
EOS

前述の方法と同様の方法により、「結局」「ゾウ」「死ぬ」という単語が抽出される。

なお、ページ２の「ゾウは素晴らしい芸をするが、動物園職員は楽しめない。」という文章の中の「楽しめない」という部分に対応する単語として「楽しむ」「ない」という単語が形態素解析により得られるとする。上記の「楽しむ（打消し）」という単語は、「楽しむ」から３単語以内に「ない」という打ち消しの助動詞があったために、「楽しむ」という単語の出現とその文書内での役割を補正する必要があることを意味する単語である。このように、形態素解析により得られた単語列において、ある単語Ａから所定の個数の単語（上記の例では３単語）以内に打ち消しの助動詞「ない」及び形容詞「悪い」等の否定的な表現が出現する場合には、単語Ａを「単語Ａ（打消し）」としてもよい。

＜単語属性記憶部２＞
単語属性記憶部２には、複数の単語のそれぞれに対応する属性が記憶されている。

属性の例は、「positive」「negative」という極性である。言い換えれば、単語に対応する属性は、その単語がポジティブな印象とネガティブな印象のどちらを与えるかについての情報である。例えば、日本語評価極性辞書（例えば、参考文献１，２参照。）では、各単語に、「positive」という属性、又は、「negative」という属性が割り当てられている。各単語の属性として、この日本語評価極性辞書で割り当てられた「positive」又は「negative」という極性を用いることができる。
〔参考文献１〕小林のぞみ，乾健太郎，松本裕治，立石健二，福島俊一, "意見抽出のための評価表現の収集", 自然言語処理，Vol.12, No.3, pp.203-222, 2005.
〔参考文献２〕東山昌彦, 乾健太郎, 松本裕治, "述語の選択選好性に着目した名詞評価極性の獲得", 言語処理学会第14回年次大会論文集, pp.584-587, 2008.

例えば、「戦争」という単語に対応する属性として「negative」という極性が割り当てられており、「素晴らしい」という単語に対応する属性として「positive」という極性が割り当てられており、「楽しむ」という単語に対応する属性として「positive」という極性が割り当てられており、「死ぬ」という単語に対応する属性として「negative」という極性が割り当てられているとする。

単語の属性として、「positive」「negative」という２種の極性以外の属性を用いてもよい。例えば、上記日本語評価極性辞書に登録されていない又は単語属性記憶部２に記憶されていない単語の属性を「even」とすることにより、「positive」「negative」「even」という３種の極性を用いてもよい。また、「喜」「怒」「哀」「楽」等の上記の「positive」「negative」という２種の評価極性を更に細分化した４種の極性を用いてもよい。また、単語の属性は、「positive」又は「negative」という１種の極性だけであってもよい。このように、単語の属性は、１種類であっても、２種以上であってもよい。

さらに、辞書に記載されている単語群に属するか否かの情報を属性とするなど、所定の辞書に載っている単語であるか否かの情報を属性としてもよい。例えば、ある単語が、発達心理学等で重要視される「こころの発達」に寄与する所定の単語群に属するか否かをその単語の属性としてもよい。こころの発達に寄与する単語とは、言い換えれば子どもの感情に関わる単語のことである。

この場合、幼児のこころの発達に寄与する単語が載っている辞書やリストを用意し、ある単語が、辞書やリストに記載されている単語、例えば、「思う」「考える」といった単語群に属するか否かの情報を属性とする。

こころの発達に寄与する単語については、参考文献３，４を参照のこと。例えば、この参考文献３，４に載っている幼児のこころの発達に寄与する単語のリストを用いることができる。
〔参考文献３〕Simon Baron-Cohen, Ofer Golan, Sally Wheelwright, Yael Granader, and Jacqueline Hill1, "Emotion Word Comprehension from 4 to 16 Years Old: A Developmental Survey", Frontiers in Evolutionary Neuroscience 2(109):109 November 2010
〔参考文献４〕渡辺弥生, 藤野沙織, "児童の感情リテラシーの発達−感情表現に焦点を当てて−", Bulletin of Faculty of Letters, Hosei University (73), 83-97, 2016

このように、単語の属性の割り当てに、上記日本語評価極性辞書等の評価辞書や、上記発達心理学等で重要視される「こころの発達」に寄与する所定の単語群等のある業界の人が評判解析に用いる単語群等の既存の単語セットを用いてもよい。

また、各単語が、異なる少なくとも１つのグループの何れかに属するように、グループ分けされている場合には、各単語が属するグループを属性として用いることができる。各単語のグループ分けは、例えば参考文献５に記載されたトピックモデルを用いたトピック抽出の手法を用いることにより行うことができる。
〔参考文献５〕David M. Blei, Andrew Y. Ng, Michael I. Jordan, "Latent Dirichlet Allocation", JMLR2003

トピックモデルを用いたトピック抽出では、所定のトピック数及び特定の文書集合を入力とすることにより、入力した特定の文書集合に含まれる単語を、所定のトピック数のトピック（＝グループ）に分けることができる。例えば、このトピックモデルを用いたトピック抽出により得られたトピックへの所属の有無を属性とすることで、入力した特定の文書集合に適した単語の属性を与えることができる。トピックモデルを用いたトピック抽出、及び、このトピック抽出により得られた属性を用いた単語の属性の割り当ては、図１に破線で示した属性割当部８により例えば行われる。類似性計算装置２０及び類似文書検索装置は、属性割当部８を更に備えていてもよい。

このように、既存の単語セットを用いずに、特定の文書集合に適した単語の属性の割り当てを行ってもよい。

例えば、特定の文書集合として、検索対象とする文書集合を用いてもよい。すなわち、検索対象とする文書に含まれる一部又は全部の単語について、各単語が異なる少なくとも１つのグループに属するように所定のグループ化手法によりグループ分けして、単語が属するグループ、又は、単語が何れのグループにも属さないという属性をその単語に対応する属性としてもよい。これにより、検索対象とする文書集合に適した単語の属性の割り当てを行うことができる。

以下、特定の文書集合を用いて、各単語が異なる少なくとも１つのグループの何れかに属するようにグループ分けするトピックモデルを用いた手法以外の方法である＜方法１＞＜方法２＞について説明する。

＜方法１＞
方法１は、word2vecとクラスタリングを用いるものである。

まず、属性割当部８は、特定の文書集合を入力として、文書中に登場する単語をword2vecを利用してユークリッド空間に埋め込む（ステップＧ１１）。特定の文書集合の例は、検索対象とする文書集合である。word2vecを利用したユークリッド空間への単語の埋め込みの詳細については、例えば、参考文献６参照を参照のこと。
〔参考文献６〕Suzuki Jun, Nagata Masaaki, “Right-truncatable Neural Word Embeddings”, Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp.1145--1151,

そして、属性割当部８は、ユークリッド空間に埋め込まれた単語群を、クラスタリングによってk個のクラスタ（単語集合あるいは単語のグループ）に分割する（ステップＧ１２）。kは予め定められた正の整数である。クラスタリングには、k-means法、random forest等の既存の方法を用いればよい。＜方法１＞の場合、クラスタリングにより得られた各グループのいずれかひとつ、あるいは複数への所属の有無を属性とすればよい。

＜方法２＞
方法２は、いわゆるbag of wordsとクラスタリングを用いるものである。文書をいくつかの重要な言葉（word）が入った袋（bag）として表現するので、以下に説明するベクトルの作り方はbag of wordsと呼ばれる。

まず、属性割当部８は、文書に登場する自立語を特定の文書集合に含まれるC冊の文書1,…,Cのすべてについて調べて、文書に出現する自立語辞書を作成する（ステップＧ２１）。特定の文書集合の例は、検索対象とする文書集合である。

作成された辞書に掲載された自立語の種類がV個あったとする。すなわち、文書1,…,Cに出現する自立語は1,…,Vであったとする。属性割当部８は、V個の自立語について、それぞれが登場する文書の冊数をカウントする（ステップＧ２２）。すなわち、自立語「オオカミ」は20冊の文書に登場する、自立語「××」は…冊の文書に登場する等の各単語についてのいわゆるdf(document frequency)を調べる。

属性割当部８は、ある閾値Dを決めて、dfが上位D位以上の自立語を洗い出す（ステップＧ２３）。Dは、予め定められた正の整数である。dfがD未満の自立語を切り捨てることで、計算コストを削減することができる。

v=1,…,Vとし、Dを予め定められた正の整数として、ステップＧ２２及びステップＧ２３の処理により得られる、上記検索対象とする文書集合の中の自立語vが出現する文書の数df(v)が大きい方からD個の自立語を1,…,Dとする。

属性割当部８は、ステップＧ２３で求まったD位以上の自立語D種が、それぞれの文書に何種類出現したか調べる（ステップＧ２４）。すなわち、属性割当部８は、例えば、文書「あかずきん」には、df 1位の自立語「おおかみ」、df D位の自立語「××」の２種類が現れるということを調べる。

なお、このとき、属性割当部８は、登場する自立語の種類の数が少ない下位の文書を切り捨てることで、これ以降の計算量を削減してもよい。すなわち、文書の数が少なければ切り捨てはしなくてもよい。

c=1,…,Cとし、Nを予め定められた正の整数として、ステップＧ２４の処理に得られる、検索対象とする文書集合に含まれる文書cに出現するD個の自立語の中の自立語の数M(c)が大きい方からN個の文書を1,…,Nとする。N<Cである場合は、登場する自立語の種類の数が少ない下位N-C個の文書を切り捨てることに対応している。N=Cである場合は、切り捨てを行わないことに対応している。

ステップＧ２４の処理により、自立語と文書それぞれが選抜されたものが残っている。残った自立語と文書のそれぞれを自立語集合V'={1,…,D}と文書集合E’={1,…,N}とし、それぞれ自立語集合V'については多くの文書に現れる順、文書集合E’については多くの自立語を含む順に並んでいるとする。

このとき、属性割当部８は、ある自立語が文書集合E'中の文書にそれぞれ何回現れるかをその自立語の特徴ベクトルとする（ステップＧ２５）。例えば、自立語「オオカミ」は、文書 1位の「あかずきん」に15回、文書 2位の「おおかみと７ひきのこやぎ」に10回、…、文書 |E'|位の「ごんぎつね」に0回現れたとすると、自立語「オオカミ」の特徴ベクトルは|E'|次元のベクトル（15,10,…,0）になる。ここで、|E'|は、文書集合E'に含まれる文書の数（ここでは、N）とする。

d=1,…,Dとし、n=1,…,Nとし、自立語dが文書nに出現する回数をO(n,d)として、ステップＧ２５の処理により得られる、自立語dに対応するベクトルは(O(1,d),…,O(N,d))となる。

ステップＧ２１からステップＧ２５の処理により、各自立語が|E'|次元の特徴空間に配置される。属性割当部８は、|E'|次元の特徴空間に配置された自立語をk個のクラスタ（単語集合あるいは単語のグループ）に分割する（ステップＧ２６）。すなわち、対応するベクトルに基づいて自立語1,…,Dをクラスタリングすることにより各自立語1,…,Dをグループ分けする。

kは予め定められた正の整数である。クラスタリングの方法、及び、クラスタリング後の各グループの属性としての扱い方は、＜方法１＞のステップＧ１２で説明したものと同様である。

なお、１つの単語に対して、複数の属性が割り当てられていてもよい。

＜属性頻度系列情報生成部３＞
属性頻度系列情報生成部３には、単語抽出部１で抽出された単語が入力される。

属性頻度系列情報生成部３は、単語抽出部１で抽出された単語に対応する属性を単語属性記憶部２から読み込み、各文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度をカウントすることにより、各文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度の系列を表す情報である属性頻度系列情報を求める（ステップＳ３）。属性頻度系列情報生成部３の出力する各文書の属性頻度系列情報は、各文書を識別する情報とセグメントを識別する情報と対応付けられて、属性頻度系列情報記憶部４に記憶される。

所定の単位が１ページである場合には、属性頻度系列情報生成部３は、各ページに含まれる単語に対応する属性の頻度をカウントする。

例えば、属性は「positive」と「negative」の２種類であり、単語属性記憶部２に記憶されていない単語に属性を割り当てないとする。そして、ページ１には「戦争がはじまった。肉食獣は殺された。」が記載されているとすると、単語抽出部１で抽出され属性頻度系列情報生成部３に入力される単語は、「戦争」「はじまる」「肉食獣」「殺す」となる。

単語属性記憶部２で「戦争」という単語に「negative」という属性が付与されている場合、属性頻度系列情報生成部３は、「negative」という属性の頻度としてカウントする。具体的には、初期値が“０”の「negative」という属性の頻度を“１”だけ加算する。「はじまる」「肉食獣」「殺す」という単語の属性は単語属性記憶部２に記憶されていない場合、「positive」及び「negative」のいずれの属性の頻度としてもカウントしない。このカウントの処理により、ページ１に含まれる単語に対応する属性の頻度は「positive」：０，「negative」：１となる。

同様の処理を、ページ２、ページ３、…に対して行う。例えば、ページ２に含まれる単語に対応する属性の頻度は「positive」：１，「negative」：１、ページ３に含まれる単語に対応する属性の頻度は「positive」：０，「negative」：１、というように、ページごとに各ページに含まれる単語に対応する属性の頻度をカウントする。

なお、属性頻度系列情報生成部３は、単語抽出部１でページ２から抽出された「楽しむ（打消し）」のように補正の必要性を示す付随情報のついた単語については、単語属性記憶部２を参照することによりみつけた評価極性を反転した評価極性を持つ単語の出現として計数してもよい。例えば、単語属性記憶部２において「楽しむ」という単語に対応する属性として「positive」という極性が割り当てられている場合には、属性頻度系列情報生成部３は、「楽しむ（打消し）」の属性は、「positive」という極性を反転した「negative」であるとして頻度を計数してもよい。または、属性頻度系列情報生成部３は、単語の正負の評価極性が打ち消し表現によって失われたとみなして、いずれの評価極性の計数もしないとしてもよい。

このように、ページごとにカウントされた各ページに含まれる単語に対応する属性の頻度が、属性頻度系列情報の一例である。

なお、ある文書は、S個のセグメント1,…,Sで構成されているとし、単語に対応する属性はA個の属性1,…,Aであるとし、s=1,…,S,として、a=1,…,Aとし、セグメントsに含まれる単語tの頻度を表す指標をHs(t)とし、セグメントsに含まれる対応する属性がaである単語ts(a)の集合を{ts(a)}とし、セグメントsにおける属性aの頻度Fs(a)はFs(a)=Σts(a)∈{ts(a)}Hs(ts(a))であるとして、上記ある文書の属性頻度系列情報は、((F1(1),…,F1(A)),…,(FS(1),…,FS(A))を表す情報であってもよい。

ここで、セグメントsに含まれる単語tの頻度を表す指標Hs(t)は、上記ある文書の中の単語tが含まれるセグメントの個数が多いほど小さな値を取ってもよい。具体的には、セグメントsに含まれる単語tの頻度をHs(t)'とし、上記ある文書の中の単語tが含まれるセグメントの個数をf(t)として、Hs(t)=Hs(t)'×log(S/f(t))としてもよい。ここで、対数の底は、e、10等の所定の１以外の正の実数である。

例えば、１個目のセグメント１であるページ１から、「おおかみ」「あらし」「よる」「おおかみ」「羊」「おおかみ」という単語が抽出され、属性頻度系列情報生成部３に入力されたとする。また、単語に対応する属性は、「positive」及び「negative」の２種類であるとする。

この場合、属性頻度系列情報生成部３は、ページ１に含まれる「おおかみ」という単語の頻度をカウントし、その頻度を“３”とする（ステップＳ３１）。

次に、属性頻度系列情報生成部３は、「おおかみ」という単語の属性を、単語属性記憶部２から読み込む（ステップＳ３２）。単語属性記憶部２で「おおかみ」という単語に「negative」という属性が付与されている場合、属性頻度系列情報生成部３は、「おおかみ」という単語の属性を「negative」とする。

この例では、ページ１以外の他のページにも「おおかみ」という単語が多く含まれているとする。この場合、「おおかみ」という単語が多く含まれていることに起因して、「negative」の数が多くなってしまい、正確なストーリー展開の抽出ができなくなる可能性がある。そこで、この例では、属性頻度系列情報生成部３は、複数セグメントにわたって登場する単語の影響を低減する重みを考慮することにする。重みの例は、「おおかみ」という単語が含まれるセグメントの個数をf(おおかみ)として、log(S/f(おおかみ))である。この重みは、文書の特徴付けを行う際に用いられるTF-IDF(Term Frequency-Inverse Document Frequency)を応用したものであり、TF-IPF(Term Frequency-Inverse Page Frequency)とも言える。もちろん、重みとして、TF-IPF以外の、ある文書の中の単語tが含まれるセグメントの個数が多いほど小さな値を取る重みを用いてもよい。

属性頻度系列情報生成部３は、ページ１に含まれる「おおかみ」という単語の頻度である“３”に上記の“log(S/f(おおかみ))”をかけた値“３×log(S/f(おおかみ))”を、ページ１に含まれる単語「おおかみ」の頻度を表す指標“H1(おおかみ)”とする（ステップＳ３３）。なお、H1(おおかみ)における「おおかみ」は、H1という単語を引数とする関数の入力が単語「おおかみ」であることを表す。

このように、セグメントsに含まれる単語tの頻度を表す指標Hs(t)は、例えば、セグメントsに含まれる単語tの頻度をTF-IPF等の重みにより補正した値である。なお、Hs(t)は、セグメントsに含まれる単語tの頻度自体であってもよい。

属性頻度系列情報生成部３は、「おおかみ」という単語の属性を「negative」であるため、言い換えれば、「おおかみ」という単語はページ１に含まれる対応する属性が「negative」である単語t1(positive)の集合{t1(positive)}に含まれるため、ページ１の「negative」の頻度を表す変数F1(negative)にH1(おおかみ)を加算する（ステップＳ３４）。

属性頻度系列情報生成部３は、ステップＳ３１からステップＳ３４の処理をページ１の各単語について行うことにより、ページ１における「negative」という属性の頻度F1(negative)=Σ_{t1(negative)∈{t1(negative)}}H1(t1(negative))と、ページ１における「positive」という属性の頻度F1(positive)=Σ_{t1(positive)∈{t1(positive)}}H1(t1(positive))とを求める（ステップＳ３５）。(F1(positive),F1(negative))が、ページ１の属性頻度系列情報の例である。

属性頻度系列情報生成部３は、ステップＳ３１からステップＳ３５の処理を各ページについて行うことにより、各ページの属性頻度系列情報((F1(positive),F1(negative)),…,(FS(positive),FS(negative))を求める（ステップＳ３６）。例えば、このようにして求まる((F1(positive),F1(negative)),…,(FS(positive),FS(negative))を表す情報が、属性頻度系列情報の一例である。

このように、属性頻度系列情報は、文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度の系列を表すヒストグラムであってもよい。なお、以下に述べるように、属性頻度系列情報は、そのヒストグラムの近似曲線であってもよい。

なお、各文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度を表す指標の系列を重み付き加算した系列を属性頻度系列情報としてもよい。例えば、セグメントs(s=1,…,S)のある属性a(i=1,…,A)の頻度を表す指標をH_iaとし、属性aの重みをα_aとし、H_s=Σ_i=1 ^Aα_iH_isとした場合、H₁,…,H_Sが属性頻度系列情報となる。

例えば、属性が「positive」「negative」である場合には、属性「positive」の重みを“１”とし、属性「negative」の重みを“−１”とする。

また、属性の頻度の系列の重み付き加算により生成された属性頻度系列情報H₁,…,H_Sの近似曲線を属性頻度系列情報とすることにより、文書の属性頻度系列情報を一本の曲線で表してもよい。属性頻度系列情報生成部３は、属性頻度系列情報H₁,…,H_Sを例えばスプライン補間することにより、近似曲線を得ることができる。文書の属性頻度系列情報を一本の曲線で表すことにより、ストーリー展開をわかりやすく表現することができる。

図３及び図４に、属性頻度系列情報の他の例を示す。図３及び図４は、ページごとの「positive」「negative」に含まれる単語に対応する頻度の系列の近似曲線を表したものである。属性頻度系列情報生成部３は、「positive」及び「negative」のそれぞれに含まれる単語に対応する頻度の系列を例えばスプライン補間することにより、近似曲線を得ることができる。このように、属性頻度系列情報は、属性の頻度の系列を表すヒストグラムの近似曲線であってもよい。図３及び図４において、横軸はページ番号であり、縦軸は頻度であり、実線は「positive」の属性に属する単語の出現頻度を表し、破線は「negative」の属性に属する単語の出現頻度を表す。

図３は、典型的な「ハッピーエンド」のストーリー展開を有する文書の属性頻度系列情報の例である。図３では、「negative」が「positive」を上回る部分が途中にあるが、最終的に「positive」が「negative」を上回るので、「ハッピーエンド」のストーリー展開が表されていると言える。

図４は、典型的な「悲しいお話」のストーリー展開にを有する文書の属性頻度系列情報の例である。図４では、「positive」が「negative」を上回る部分もあるが、ほとんどの部分で「negative」が「positive」を上回っており、「negative」が「positive」を上回ったまま終わっているため、「悲しいお話」のストーリー展開が表されていると言える。

このように、ある文書の属性頻度系列情報は、その文書のストーリー展開を表す。このため、後述する類似性計算部５及び類似文書情報出力部６の処理で属性頻度系列情報が類似している文書を探すことにより、ストーリー展開が似た文書の検索が可能となるのである。

属性頻度系列情報生成部３は、例えば上記の処理により得られた属性頻度系列情報にローパスフィルタをかける等の手法により平滑化してもよい。例えば、比較的低年齢に向けて書かれており、見開きの２ページを１つの単位としてデザインされている絵本について、見開きの２ページを所定の単位として属性頻度系列情報の生成を行ったとき、見開き２ページの左のページにテキストが記載されており、見開き２ページの右のページに絵のみが記載されている等の場合に、属性頻度系列情報の凹凸が極端となる可能性がある。このような場合に、属性頻度系列情報を平滑化することにより、属性頻度系列情報の凹凸を平坦にすることができる。これにより、類似文書の検索の精度を高めることができる。

属性頻度系列情報生成部３は、処理対象の全ての文書について属性頻度系列情報を生成したかどうかを判断し、まだ属性頻度系列情報を生成していない文書がある場合には、その文書についてステップＳ１及びステップＳ３の処理を行う。すなわち、処理対象の全ての文書について属性頻度系列情報が生成されるまで、ステップＳ１及びステップＳ３の処理が繰り返し行われる。

＜属性頻度系列情報記憶部４＞
属性頻度系列情報記憶部４には、属性頻度系列情報生成部３で生成された属性頻度系列情報が、文書の識別番号（ID等）と対応づけられて記憶される。

なお、後述するように、属性頻度系列情報生成部３で生成された属性頻度系列情報が、文書の識別番号（ID等）と、所定の単位と対応づけられて記憶されていてもよい。

なお、単語抽出部１及び属性頻度系列情報生成部３の処理は、言い換えれば各文書の属性頻度系列情報を属性頻度系列情報記憶部４に記憶させる処理は、類似性計算部５、類似文書情報出力部６及び表示部７の処理に先だって行われる。検索対象とする文書集合を変更しない限り、各文書の属性頻度系列情報を属性頻度系列情報記憶部４に記憶させる処理はやり直す必要はない。

＜類似性計算部５＞
類似性計算部５には、表示部７を通じてユーザにより選択又は描写された検索のクエリとなる文書の属性頻度系列情報が入力される。表示部７を通じた、ユーザによるクエリとなる文書の属性頻度系列情報の入力については後述する。

ユーザにより、検索のクエリとなる文書の属性頻度系列情報が描写された場合には、そのユーザにより描写された、検索のクエリとなる文書の属性頻度系列情報がそのまま類似性計算部５に入力される。

ユーザにより、検索のクエリとなる文書が選択された場合には、類似性計算部５は、ユーザにより選択された文書の属性頻度系列情報が、属性頻度系列情報記憶部４に記憶されているか否かを判断する。ユーザにより選択された文書の属性頻度系列情報が属性頻度系列情報記憶部４に記憶されている場合には、類似性計算部５は、ユーザにより選択された文書の属性頻度系列情報を属性頻度系列情報記憶部４から読み込む。ユーザにより選択された文書の属性頻度系列情報が属性頻度系列情報記憶部４に記憶されていない場合には、ユーザにより選択された文書について、単語抽出部１及び属性頻度系列情報生成部３によるステップＳ１及びステップＳ３の処理が行われ、この処理により得られたユーザにより選択された文書の属性頻度系列情報が類似性計算部５に入力される。なお、この場合に、この処理により得られたユーザにより選択された文書の属性頻度系列情報を属性頻度系列情報記憶部４に記憶させることにより、属性頻度系列情報記憶部４に記憶されている属性頻度系列情報のデータベースを更新してもよい。

類似性計算部５は、属性頻度系列情報記憶部４から読み込んだ各文書の属性頻度系列情報と、入力された属性頻度系列情報との類似性を計算する（ステップＳ５）。計算された類似性は、文書の識別情報とセットで類似文書情報出力部６に出力される。

２個の属性頻度系列情報の関係を比べることについてここまで類似性で説明を行ってきたが、類似性としては、Bhattacharyya Coefficient等の類似度、Kullback-Leibler divergence、Itakura-Saito divergence、Bregman divergence等の非類似度、ローカルディスタンスとしてユークリッド距離を用いた場合のDynamic Time Warping、Earth mover's distance等の距離尺度を用いることができる。もちろん、２個の属性頻度系列情報間の類似性を測ることができれば、上記以外の類似性を表す指標を用いてもよい。

属性頻度系列情報が属性の頻度の系列を表すヒストグラムである場合には、互いの類似性を計算する２個の文書の属性頻度系列情報であるヒストグラムのビンの数が異なる場合がある。例えば、所定の単位の大きさが１ページであり、これらの２個の文書のページ数が異なる場合には、これらの２個の文書の属性頻度系列情報であるヒストグラムのビンの数は異なることになる。

ここで、類似性としてBhattacharyya Coefficient等のビンの数が同一であることを前提とする指標を用いる場合には、２個の文書の属性頻度系列情報であるヒストグラムのビンの数を同一にする必要がある。

この場合、類似性計算部５は、互いの類似性を計算する２個の文書の属性頻度系列情報であるヒストグラムのビンの数が所定のビンの数になるように、互いの類似性を計算する２個の文書の属性頻度系列情報であるヒストグラムを正規化し、正規化されたヒストグラムに基づいて類似性を計算する。所定のビンの数は、予め定められた固定の値（例えば、「起」「承」「転」「結」を想定して“４”とする。）でもよいし、互いの類似性を計算する２個の文書の属性頻度系列情報であるヒストグラムのビンの数の中の少ない方のビンの数でもよいし、互いの類似性を計算する２個の文書の属性頻度系列情報であるヒストグラムのビンの数の中の多い方のビンの数でもよいし、互いの類似性を計算する２個の文書の属性頻度系列情報であるヒストグラムのビンの数の最大公約数でもよい。また、所定のビンの数は、後述する粒度設定部７１により設定されたビンの数であってもよい。

以下、ヒストグラムの正規化の例について説明する。図５に表された、文書Ａの属性頻度系列情報であるヒストグラムのビンの数は４であり、文書Ｂの属性頻度系列情報であるヒストグラムの数は６である。図５のグラフの横軸はビンであり、図５のグラフの縦軸は総頻度に占める割合である。

これらのヒストグラムをビンの数が４になるように正規化することを考える。文書Ａのヒストグラムのビンの数は元々４であるため、文書Ａのヒストグラムについては何もしない。

一方、文書Ｂのヒストグラムのビンの数は６であるため、例えば図６に示すように、６／４＝１．５の大きさのビンごとに頻度を振り分ける必要がある。図６では、２個目のビン及び５個目のビンが、１．５の大きさのビンによる振り分けによる振り分け境界に位置している。このように、振り分け境界に位置するビンの頻度の頻度は、例えば按分により行う。この例では、２個目のビン及び５個目のビンの頻度を５０％ずつ振り分ける。その結果、文書Ｂのヒストグラムは図７のようになる。例えば、このように、ヒストグラムの正規化を行ってもよい。

以下、ユーザによる、検索のクエリとなる文書の属性頻度系列情報の選択の例について説明する。

液晶ディスプレイ、ＣＲＴ等の表示装置である表示部７には、図８の表示がされているとする。ユーザは、図８の左上のタイトル又は著者等を入力するテキストボックスに、検索のクエリとなる文書の情報をキーボード、タッチパネル等の入力装置により入力する。図８の例では、タイトルのテキストボックスに「かわいそうなきりん」というタイトルが入力されている。

この状態で、ユーザが「検索」のボタンを、マウス、タッチパネル等のポインティングデバイスによりクリックすると、図示していない検索装置は、クリックされた位置である「検索」のボタンに対応づけられた検索処理、即ち、テキストボックスに入力された情報を基に前方一致検索等の検索処理を行い、その検索結果を図８の右欄に表示する。図８の例では、「かわいそうなきりん」という文字列で始まる文書の検索結果として、「かわいそうなきりん」という一件が検索結果として表示されている。ユーザが、ポインティングデバイスにより「かわいそうなきりん」という検索結果を選択すると、表示部７には図９の表示がされる。

図９では、検索結果の表示画面上に、更に「キャラクタや出来事が似ている絵本」と、「ストーリー展開が似ている絵本」という２個のボタンが重畳してポップアップ表示される。ここで、ユーザがポインティングデバイスにより「ストーリー展開が似ている絵本」をクリックすると、クエリとなる文書として「かわいそうなきりん」というタイトルが類似文書検索装置の類似性計算部５に入力される。

類似性計算部５は、「かわいそうなきりん」というタイトルを入力として、「かわいそうなきりん」というタイトルの文書の属性頻度系列情報を属性頻度系列情報記憶部４から読み込み、検索のクエリとなる文書の属性頻度系列情報とする。「かわいそうなきりん」というタイトルの文書の属性頻度系列情報が属性頻度系列情報記憶部４に記憶されていない場合には、「かわいそうなきりん」というタイトルの文書について、単語抽出部１と属性頻度系列情報生成部３の処理が行われ、この処理により得られた属性頻度系列情報が類似性計算部５に入力される。

なお、ユーザがポインティングデバイスにより「キャラクタや出来事が似ている絵本」をクリックすると、「かわいそうなきりん」というタイトルの文書にキャラクタや出来事が似ている絵本が、この発明による類似文書検索装置とは異なる文書検索装置により検索され、その検索結果が表示される。文書検索装置の例は、例えば特開２０１４−２３５７２３号公報又は特開２０１６−１４８９２７号公報に記載された情報提示装置である。

特開２０１６−１４８９２７号公報の情報提示装置は、入力されたクエリ（上記の例では、「かわいそうなきりん」というタイトルの文書）から「きりん」「動物園」など登場するキャラクタや絵本の舞台などを表す文書中の特徴語や著者等の書誌情報を特徴として抽出し、クエリの特徴との類似度が所定値以上の特徴を含む（すなわち共通のキャラクタや舞台が登場する、あるいは、同一著者によって著されているなどの共通点を有する）オブジェクト情報（例えば絵本）を複数探索する。特開２０１６−１４８９２７号公報の情報提示装置は、探索された複数のオブジェクト情報の各々を示すノードの各々の二次元平面座標を、各ノードが示すオブジェクト情報の特徴間の類似度が高いほどノード間の距離が近くなるように算出し、オブジェクト情報とクエリとの類似度が高いほど高くなるノードの標高を算出し、算出された二次元平面座標及び高さ情報が示す三次元座標位置にノードの各々をプロットし、クエリから所定の範囲にプロットされるオブジェクトを探索結果として提示するものである。

図８及び図９に示した表示部７の表示画面が、ユーザにより選択された属性頻度系列情報の入力を受け付ける入力部７２の一例である。

以下、ユーザによる、検索のクエリとなる文書の属性頻度系列情報の選択の他の例について説明する。

表示部７には、図１０の表示がされているとする。図１０では、図１０の左側にハッピーエンドを表す属性頻度系列情報の例が示されており、図１０の右側に悲しいお話を表す属性頻度系列情報の例が示されている。図１０において、属性頻度系列情報は一本の曲線で表されており、横軸は物語の進行度合いを表し、縦軸は上に行くほどpositive度合いが高く下に行くほどnegative度合いが低くなるようなスコアを意味するとする。ユーザが、図１０の左のハッピーエンドのグラフをポインティングデバイスにより選択すると、そのハッピーエンドのグラフに対応する属性頻度系列情報が選択される。また、ユーザが、図１０の右の悲しいお話のグラフをポインティングデバイスにより選択すると、その悲しいお話のグラフに対応する属性頻度系列情報が選択される。

図１０に示した表示部７の表示画面が、ユーザにより選択された属性頻度系列情報の入力を受け付ける入力部７２の一例である。

以下、ユーザによる、検索のクエリとなる文書の属性頻度系列情報の描写の例について説明する。図１１では、属性頻度系列情報を一本の曲線で表している。属性頻度系列情報を一本の曲線で表すことにより、属性頻度系列情報を二本の以上の曲線で表すよりもユーザが直感的に属性頻度系列情報を入力することができるため、属性頻度系列情報を描写するユーザの入力の際の負担を軽減することができる。

図１１の曲線の描写領域をポインティングデバイスでユーザがクリックすると頂点を指定することができる。図１１では、頂点を○で表している。そして、ユーザが複数の頂点を指定すると、指定された頂点を通るｎ次スプライン曲線等の曲線が生成される。曲線上をクリックすると新たな頂点の指定をすることができ、頂点をドラックすることにより曲線の形状を変更可能であってもよい。例えば、このようにして属性頻度系列情報を表す曲線が描写される。

図１１に示した表示部７の表示画面が、ユーザにより描画された属性頻度系列情報の入力を受け付ける入力部７２の一例である。

また、図１１では、曲線の描写領域の横に、「ハッピーエンド」のストーリーを有する文書の属性頻度系列情報に対応する曲線の例、「悲しいお話」のストーリーを有する文書の属性頻度系列情報に対応する曲線の例が表示されている。このように、各ストーリーを有する文書の属性頻度系列情報に対応する曲線の例を表示することで、ユーザが曲線を描写する際のお手本にすることができるので、ユーザの曲線の描写が容易となる。

例えば、このようにして描写された曲線である属性頻度系列情報がそのまま検索のクエリとなる文書の属性頻度系列情報として類似性計算部５に入力されてもよいし、曲線である属性頻度系列情報が所定のビンの数のヒストグラムに変換され、変換されたヒストグラムが検索のクエリとなる文書の属性頻度系列情報として類似性計算部５に入力されてもよい。

ここで、ある文書の属性頻度系列情報は、その文書のストーリー展開を表す。このため、属性頻度系列情報が似ている文書は、ストーリーが似ている文書である可能性が高い。このため、属性頻度系列情報が似ている文書を見つけることで、ストーリーが似ている文書を見つけることができるのである。そのため、類似性計算部５は、属性頻度系列情報の類似性を計算しているのである。

＜類似文書情報出力部６＞
類似文書情報出力部６は、類似性計算部５で計算された類似性が高い文書についての情報を表示部７に出力する（ステップＳ６）。

類似文書情報出力部６は、類似性が所定の閾値よりも高い文書についての情報を表示部７に出力してもよいし、類似性が高い方から所定の個数の文書についての情報を表示部７に出力してもよい。

所定の閾値及び所定の個数は、求められる仕様に応じて適宜決定される。例えば、図１２のようにディスプレイに絵本の表紙一覧を出す場合、題名が読める程度のサイズに表示しつつ一覧性を保つ程度の値を予め設定しておいてもよい。

＜表示部７＞
表示部７は、類似文書情報出力部６が出力した類似性が高い文書についての情報を類似文書検索結果として表示する（ステップＳ７）。例えば、類似文書検索結果として、文書のタイトルが表示される。また、類似文書検索結果には、文書のタイトルだけではなく、文書の属性頻度系列情報等の文書に関する情報が含まれていてもよい。

以下、表示部７に表示される類似文書検索結果の例について説明する。

図１２では、「かわいそうなきりん」というタイトルの文書の属性頻度系列情報と類似性が高い１５件の文書が表示されている。

図１２の表示において、ポインティングデバイスでユーザが類似性が高い文書をロールオーバー又は選択すると、図１３に示すように、その類似性が高い文書の属性頻度系列情報が類似文書検索結果として表示されてもよい。

図１３では、「５ひきのいぬ」という文書がロールオーバー又は選択されたため、「５ひきのいぬ」というタイトルの文書の属性頻度系列情報がポップアップ表示されている。
また、図１３では、検索のクエリとなる「かわいそうなきりん」というタイトルの文書の属性頻度系列情報が更に表示されている。このように、検索のクエリとなる文書の属性頻度系列情報を類似文書検索結果として更に表示することで、２個の文書の属性頻度系列情報がどの位類似しているのかをユーザが把握することができ、属性頻度系列情報の類似性、すなわち、例えば「positive」「negative」度合いの推移(物語の進行)によるストーリーとしての類似性を直観的に把握することができる。

この例では、クエリである「かわいそうなきりん」というタイトルの文書の属性頻度系列情報と、検索結果の「５ひきのいぬ」というタイトルの文書の属性頻度系列情報とは、実線で示された「positive」が破線で示された「negative」を上回る部分もあるが、ほとんどの部分で「negative」が「positive」を上回っている点、「negative」が「positive」を上回ったまま終わっている点が類似している。言い換えれば、全体的にも最終的にも悲しいお話を表しているという点で類似している。このように、クエリである「かわいそうなきりん」というタイトルの文書は、全体的にも最終的にも「negative」属性を有する単語の数が「positive」属性を有する単語の数を上回る悲しいお話であるため、同様に全体的にも最終的にも「negative」属性を有する単語の数が「positive」属性を有する単語の数を上回るという意味で、属性頻度系列情報が「かわいそうなきりん」と類似し、同様に悲しいお話である、検索結果の「５ひきのいぬ」というタイトルの文書と似ていると判定されている。

ここで、ある文書の属性頻度系列情報は、その文書のストーリー展開を表す。このため、属性頻度系列情報が似ている文書は、ストーリーが似ている文書である可能性が高い。このため、属性頻度系列情報が似ている文書を見つけることで、ストーリーが似ている文書を見つけることができるのである。これにより、話の類型に基づく絵本等の文書の検索を行うことができる。

ここで、表示された、検索のクエリとなる「かわいそうなきりん」というタイトルの文書の属性頻度系列情報の曲線をユーザが調整可能であってもよい。この場合、調整後の属性頻度系列情報に対応する類似文書検索結果がリアルタイムに表示されてもよい。

［変形例］
＜変形例１＞
異なる複数の所定の単位のそれぞれに対応する各文書の属性頻度系列情報が、単語抽出部１及び属性頻度系列情報生成部３により生成され、所定の単位と対応づけられて属性頻度系列情報記憶部４に記憶されていてもよい。例えば、所定の単位を１ページとしたときの各文書の属性頻度系列情報と、所定の単位を２ページとしたときの各文書の属性頻度系列情報とが、単語抽出部１及び属性頻度系列情報生成部３により生成され、属性頻度系列情報記憶部４に記憶されていてもよい。

なお、文書を構成する最小の単位を所定の単位とした場合の各文書の属性頻度系列情報が、単語抽出部１及び属性頻度系列情報生成部３により生成され、所定の単位と対応づけられて属性頻度系列情報記憶部４に記憶されていてもよい。この場合、異なる複数の単位のそれぞれと最小の単位との関係を示す情報も、属性頻度系列情報記憶部４に記憶されているとする。このとき、後述する粒度設定部７１により所定の単位が設定された場合には、その設定された所定の単位と最小の単位との関係に基づいて、その設定された所定の単位に対応する各文書の属性頻度系列情報が計算され、類似性計算部５に出力される。

例えば、最小単位としてページを単位とする各文書の属性頻度系列情報が、所定の単位と対応づけられて属性頻度系列情報記憶部４に記憶される。さらに、最小単位であるページとページより大きな単位である章について、各章とページとの対応関係（１章は１０ページ、２章は１２ページで構成されている、等）が属性頻度系列情報記憶部４に記憶される。粒度設定部７１により所定の単位が「章」に設定された場合には、所定の単位「章」と最小の単位「ページ」との関係に基づいて、１から１０ページ目までの属性頻度系列情報から「１章」の属性頻度系列情報が計算され、同様に１１から２２ページ目までの属性頻度系列情報から「２章」の属性頻度系列情報が計算され、それぞれ類似性計算部５に出力される。なお、所定の単位と最小の単位との関係は、章とページの関係に限られない。例えば、文を最小単位とした場合には、所定の単位はページであってもよいし、章であってもよい。すなわち、所定の単位と最小の単位との関係は、ページと文の関係や、章と文の関係であってもよい。

この場合、表示部７には、所定の単位を設定可能な粒度設定部７１が表示されていてもよい。粒度設定部７１の例は、図１４から図１８を用いて説明する、ボタン、スライダーバー及びプルダウンメニューである。

図１４の「ストーリー展開が似ている絵本」の中の「おおまか」「詳細」というボタンである。「おおまか」のボタンには、「詳細」のボタンに対応付けられている単位の大きさよりも大きな単位が対応付けられているとする。

ユーザがポインティングデバイスにより「おおまか」のボタンをクリックすると、属性頻度系列情報記憶部４に記憶されている属性頻度系列情報の中の、「おおまか」のボタンに対応付けられている大きさの単位を所定の単位とする属性頻度系列情報に基づいて、類似性計算部５、類似文書情報出力部６及び表示部７の処理が行われる。例えば、「おおまか」のボタンには、検索対象の文書集合に属する文書の平均的な長さを基準としてストーリーの概要に着目した文書検索を行うことができる単位を対応付けておき、「おおまか」のボタンをクリックすることにより検索を行うことで、ストーリーの概要に着目した文書検索を行うことができる。

また、ユーザがポインティングデバイスにより「詳細」のボタンをクリックすると、属性頻度系列情報記憶部４に記憶されている属性頻度系列情報の中の、「詳細」のボタンに対応付けられている大きさの単位を所定の単位とする属性頻度系列情報に基づいて、類似性計算部５、類似文書情報出力部６及び表示部７の処理が行われる。「詳細」のボタンをクリックすることにより検索を行うことで、ストーリーの細部に着目した文書検索を行うことができる。

なお、図１５に示すように、「ストーリー展開が似ている絵本」の中に所定の単位を設定可能なスライダーバーと「検索」のボタンとが表示されていてもよい。このスライダーバーのつまみをポインティングデバイスで移動させることにより、所定の単位を設定することができる。スライダーバーのつまみは、連続的に移動可能であってもよいし、所定の複数の位置のみに非連続的に移動可能となっていてもよい。この所定の複数の位置は、文書を分割可能な複数の単位に対応している。この所定の複数の位置は、属性頻度系列情報記憶部４に記憶されている属性頻度系列情報に対応する異なる複数の所定の単位に対応していてもよい。

スライダーバーのつまみを所望の位置に置いた状態で「検索」のボタンをクリックすると、属性頻度系列情報記憶部４に記憶されている属性頻度系列情報の中の、その位置に対応する単位を所定の単位とする属性頻度系列情報に基づいて、類似性計算部５、類似文書情報出力部６及び表示部７の処理が行われる。

なお、図１５の例では、スライダーバーの両端に、所定の単位を所定の大きさに設定可能なボタンが表示されている。「よりおおまか」のボタンには、「より詳細」のボタンに対応付けられている単位の大きさよりも大きな単位が対応付けられているとする。

ユーザがポインティングデバイスにより「よりおおまか」のボタンをクリックすると、「よりおおまか」のボタンに対応付けられている大きさの単位分だけ、その時点で設定されている第１の所定の単位（例えば、その時点でスライダーバーがのつまみが置かれている位置に対応する第１の所定の単位）より大きな単位を第２の所定の単位とし、属性頻度系列情報記憶部４に記憶されている属性頻度系列情報の中の、第２の所定の単位に対応する属性頻度系列情報に基づいて、類似性計算部５、類似文書情報出力部６及び表示部７の処理が行われる。「よりおおまか」のボタンがクリックされると、スライドバーのつまみが第２の所定の単位に対応する位置に自動的に移動するようにしてもよい。

また、ユーザがポインティングデバイスにより「より詳細」のボタンをクリックすると、「より詳細」のボタンに対応付けられている大きさの単位分だけ、その時点で設定されている第３の所定の単位（例えば、その時点でスライダーバーがのつまみが置かれている位置に対応する第３の所定の単位）より小さな単位を第４の所定の単位とし、属性頻度系列情報記憶部４に記憶されている属性頻度系列情報の中の、第４の所定の単位に対応する属性頻度系列情報に基づいて、類似性計算部５、類似文書情報出力部６及び表示部７の処理が行われる。「より詳細」のボタンがクリックされると、スライドバーのつまみが第４の所定の単位に対応する位置に自動的に移動するようにしてもよい。

また、図１６に示すように、「ストーリー展開が似ている絵本」の中にプルダウンメニューがあり、このプルダウンメニューにより所望の単位を設定可能であってもよい。図１６の例では、プルダウンメニューにより「おおまか」「詳細」という項目が展開されている。「おおまか」の項目には、「詳細」の項目に対応付けられている単位の大きさよりも大きな単位が対応付けられているとする。

ユーザがポインティングデバイスにより、プルダウンメニューの中から「おおまか」の項目を選択すると、属性頻度系列情報記憶部４に記憶されている属性頻度系列情報の中の、「おおまか」の項目に対応付けられている大きさの単位を所定の単位とする属性頻度系列情報に基づいて、類似性計算部５、類似文書情報出力部６及び表示部７の処理が行われる。

また、ユーザがポインティングデバイスにより、プルダウンメニューの中から「詳細」の項目を選択すると、属性頻度系列情報記憶部４に記憶されている属性頻度系列情報の中の、「詳細」の項目に対応付けられている大きさの単位を所定の単位とする属性頻度系列情報に基づいて、類似性計算部５、類似文書情報出力部６及び表示部７の処理が行われる。

図１４から図１６を用いて説明したように、検索前にユーザが粒度設定部７１を用いて所定の単位を設定可能であってもよい。

一方、図９、図１７及び図１８を用いて以下に説明するように、検索前はユーザが粒度設定部７１を用いて所定の単位を設定可能ではなく予め定められた単位を所定の単位として検索が行われるが、検索後は類似文書検索結果の表示画面に表示された粒度設定部７１を用いてユーザが所定の単位を設定可能であってもよい。

図９に示すように、「ストーリー展開が似ている絵本」の中に「おおまか」「詳細」というボタンがなくてもよい。この場合、「ストーリー展開が似ている絵本」のボタンをクリックすると、属性頻度系列情報記憶部４に記憶されている属性頻度系列情報の中の、予め定められた単位を所定の単位とする属性頻度系列情報に基づいて、類似性計算部５、類似文書情報出力部６及び表示部７の処理が行われる。

この場合、図１７に示すように、表示部７の類似文書検索結果の表示画面に、所定の単位を設定可能なスライダーバーが表示されていてもよい。ユーザは、このスライダーバーのつまみをポインティングデバイスで移動させることにより、所定の単位を設定することができる。スライダーバーのつまみは、連続的に移動可能であってもよいし、所定の複数の位置のみに非連続的に移動可能となっていてもよい。この所定の複数の位置は、文書を分割可能な複数の単位に対応している。この所定の複数の位置は、属性頻度系列情報記憶部４に記憶されている属性頻度系列情報に対応する異なる複数の所定の単位にそれぞれ対応していてもよい。スライダーバーのつまみの初期位置は、表示部７の類似文書検索結果を得る際に用いた所定の単位、言い換えれば所定の単位の初期値に対応しているとする。

図１７の例では、スライダーバーの両端に、所定の単位を所定の大きさに設定可能なボタンが表示されている。「よりおおまか」のボタンには、「より詳細」のボタンに対応付けられている単位の大きさよりも大きな単位が対応付けられているとする。また、「よりおおまか」のボタンには所定の単位の初期値よりも大きな単位が対応付けられており、「より詳細」のボタンには所定の単位の初期値よりも小さな単位が対応付けられているとする。このように、互いに異なる大きさの単位が対応付けられている少なくとも１つのボタンが表示部７に表示されていてもよい。

スライダーバー又はボタンにより所定の単位を設定した場合には、設定後の所定の単位に対応する類似文書検索結果がリアルタイムに表示されてもよい。すなわち、粒度設定部７１による設定前の所定の単位を第一の所定の単位とし、粒度設定部７１による設定後の所定の単位を第二の所定の単位として、表示部７は、粒度設定部７１による設定前の第一の所定の単位に基づく第一の類似文書検索結果を表示するとともに、粒度設定部７１による設定後の第二の所定の単位に基づく第二の類似文書検索結果を表示してもよい。これにより、ユーザは、粒度設定部７１による設定後の所定の単位が、適切なものであったかどうかを確認することができる。

なお、図１７の表示において、ユーザがポインティングデバイスでクエリとの類似性が高い文書として表示されている文書のうちの１つをロールオーバー又は選択すると、その類似性が高い文書の属性頻度系列情報が類似文書検索結果として表示される。また、図１７の表示において、検索のクエリとなる文書の属性頻度系列情報が類似文書検索結果として更に表示されている。

なお、粒度設定部７１による設定前の所定の単位を第一の所定の単位とし、粒度設定部７１による設定後の所定の単位を第二の所定の単位として、図１８に示すように、表示部７は、第一の所定の単位に基づく検索のクエリとなる文書の属性頻度系列情報及び第二の所定の単位に基づく検索のクエリとなる文書の属性頻度系列情報を並べて表示してもよい。図１８では、左上に検索のクエリとなる文書の第一の所定の単位に基づく属性頻度系列情報が表示され、左下に同一の文書の第二の所定の単位に基づく属性頻度系列情報が表示されている。

粒度設定部７１による設定前の第一の所定の単位に基づく類似文書検索結果を第一の類似文書検索結果とし、粒度設定部７１による設定後の第二の所定の単位に基づく類似文書検索結果を第二の類似文書検索結果としたとき、ユーザがポインティングデバイスで第二の類似文書検索結果に含まれる類似性が高い文書をロールオーバー又は選択すると、選択された類似性が高い文書の属性頻度系列情報が表示されてもよい。ユーザは、所定の単位を設定する前後の異なる所定の単位に基づく、検索のクエリとなる文書の属性頻度系列情報を同時に把握することができるため、設定後の所定の単位が適切なものであったかどうかを更に容易に確認することができる。

なお、この設定後の所定の単位に対応する類似文書検索結果の表示は、複数回行うことが可能であってもよい。すなわち、スライダーバー又はボタンにより所定の単位が設定される度ごとに、設定後の所定の単位に対応する類似文書検索結果が、粒度設定部７１による設定前の類似文書検索結果と共にリアルタイムに表示されてもよい。

なお、図１７及び図１８において、スライダーバーとボタンから構成された粒度設定部７１に代えて、ボタンのみ、又は、プルダウンメニューで構成された粒度設定部７１が設けられており、このボタンのみ、又は、プルダウンメニューで構成された粒度設定部７１でユーザが所定の単位を設定可能であってもよい。

なお、図１４から図１６を用いて説明したように、検索前にユーザが粒度設定部７１を用いて所定の単位を設定可能である場合においても、図１７及び図１８を用いて説明したのと同様の方法により類似文書検索結果の表示画面に表示された粒度設定部７１を用いてユーザが所定の単位を設定可能であってもよい。

＜変形例２＞
なお、属性頻度系列情報が、文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度の系列を表すヒストグラムであるとし、互いの類似性を計算する２個の属性頻度系列情報であるヒストグラムのビンの数が所定のビンの数になるように上記互いの類似性を計算する２個の属性頻度系列情報であるヒストグラムが正規化され、正規化されたヒスグラムに基づいて上記２個の類似性が計算される場合には、粒度設定部７１は、所定のビンの数を設定可能であってもよい。

粒度設定部７１の例は、図１４から図１７を用いて説明する、ボタン、スライダーバー及びプルダウンメニューである。

例えば、図１４の「おおまか」のボタンには、「詳細」のボタンに対応付けられている数よりも小さな数が対応付けられているとする。

ユーザがポインティングデバイスにより「おおまか」のボタンをクリックすると、「おおまか」のボタンに対応付けられているビンの数を所定のビンの数として類似性計算部５の処理が行われる。すなわち、粒度設定部７１は、「おおまか」のボタンに対応付けられているビンの数を所定のビンの数として類似性計算部５に出力し、類似性計算部５は、入力された所定のビンの数に基づいて上記説明したステップＳ５の処理を行う。例えば、「おおまか」のボタンには、検索対象の文書集合に属する文書の平均的な長さを基準としてストーリーの概要に着目した文書検索を行うことができるビンの数を対応付けておき、「おおまか」のボタンをクリックすることにより検索を行うことで、ストーリーの概要に着目した文書検索を行うことができる。

また、ユーザがポインティングデバイスにより「詳細」のボタンをクリックすると、「詳細」のボタンに対応付けられているビンの数を所定のビンの数として類似性計算部５の処理が行われる。すなわち、粒度設定部７１は、「詳細」のボタンに対応付けられているビンの数を所定のビンの数として類似性計算部５に出力し、類似性計算部５は、入力された所定のビンの数に基づいて上記説明したステップＳ５の処理を行う。「詳細」のボタンをクリックすることにより検索を行うことで、ストーリーの細部に着目した文書検索を行うことができる。

なお、図１５に示すように、「ストーリー展開が似ている絵本」の中に所定のビンの数を設定可能なスライダーバーと「検索」のボタンとが表示されていてもよい。このスライダーバーのつまみをポインティングデバイスで移動させることにより、ビンの数を設定することができる。スライダーバーのつまみは、連続的に移動可能であってもよいし、所定の複数の位置のみに非連続的に移動可能となっていてもよい。この所定の複数の位置は、所定の複数のビンの数に対応している。

スライダーバーのつまみを所望の位置に置いた状態で「検索」のボタンをクリックすると、そのつまみの位置に対応するビンの数を所定のビンの数として類似性計算部５処理が行われる。すなわち、粒度設定部７１は、そのつまみの位置に対応付けられているビンの数を所定のビンの数として類似性計算部５に出力し、類似性計算部５は、入力された所定のビンの数に基づいて上記説明したステップＳ５の処理を行う。

なお、図１５の例では、スライダーバーの両端に、所定のビンの数を所定の大きさに設定可能なボタンが表示されている。「よりおおまか」のボタンには、「より詳細」のボタンに対応付けられているビンの数の大きさよりも小さなビンの数が対応付けられているとする。

ユーザがポインティングデバイスにより「よりおおまか」のボタンをクリックすると、「よりおおまか」のボタンに対応付けられている大きさのビンの数の分だけ、その時点で設定されている第１の所定のビンの数（例えば、その時点でスライダーバーがのつまみが置かれている位置に対応する第１の所定のビンの数）より小さなビンの数を第２の所定のビンの数として類似性計算部５に出力し、類似性計算部５は、入力された所定のビンの数に基づいて上記説明したステップＳ５の処理を行う。「よりおおまか」のボタンがクリックされると、スライドバーのつまみが第２の所定のビンの数に対応する位置に自動的に移動するようにしてもよい。

また、ユーザがポインティングデバイスにより「より詳細」のボタンをクリックすると、「より詳細」のボタンに対応付けられている大きさのビンの数のだけ、その時点で設定されている第３の所定のビンの数（例えば、その時点でスライダーバーがのつまみが置かれている位置に対応する第３の所定のビンの数）より大きなビンの数を第４の所定のビンの数として類似性計算部５に出力し、類似性計算部５は、入力された所定のビンの数に基づいて上記説明したステップＳ５の処理を行う。「より詳細」のボタンがクリックされると、スライドバーのつまみが第４の所定のビンの数に対応する位置に自動的に移動するようにしてもよい。

また、図１６に示すように、「ストーリー展開が似ている絵本」の中にプルダウンメニューがあり、このプルダウンメニューにより所望のビンの数を設定可能であってもよい。図１６の例では、プルダウンメニューにより「おおまか」「詳細」という項目が展開されている。「おおまか」の項目には、「詳細」の項目に対応付けられているビンの数の大きさよりも小さなビンの数が対応付けられているとする。

ユーザがポインティングデバイスにより、プルダウンメニューの中から「おおまか」の項目を選択すると、「おおまか」の項目に対応付けられているビンの数を所定のビンの数として類似性計算部５の処理が行われる。すなわち、粒度設定部７１は、「おおまか」の項目に対応付けられているビンの数を所定のビンの数として類似性計算部５に出力し、類似性計算部５は、入力された所定のビンの数に基づいて上記説明したステップＳ５の処理を行う。

また、ユーザがポインティングデバイスにより、プルダウンメニューの中から「詳細」の項目を選択すると、「詳細」の項目に対応付けられているビンの数を所定のビンの数として類似性計算部５の処理が行われる。すなわち、粒度設定部７１は、「詳細」の項目に対応付けられている数を所定のビンの数として類似性計算部５に出力し、類似性計算部５は、入力された所定のビンの数に基づいて上記説明したステップＳ５の処理を行う。

図１４から図１６を用いて説明したように、検索前にユーザが粒度設定部７１を用いて所定のビンの数を設定可能であってもよい。

一方、図９及び図１７を用いて以下に説明するように、検索前はユーザが粒度設定部７１を用いて所定のビンの数を設定可能ではなく予め定められたビンの数を所定のビンの数として検索が行われるが、検索後は類似文書検索結果の表示画面に表示された粒度設定部７１を用いてユーザが所定のビンの数を設定可能であってもよい。

図９に示すように、「ストーリー展開が似ている絵本」の中に「おおまか」「詳細」というボタンがなくてもよい。この場合、「ストーリー展開が似ている絵本」のボタンをクリックすると、予め定められたビンの数を所定のビンの数として類似性計算部５の処理が行われる。すなわち、粒度設定部７１は、予め定められたビンの数を所定のビンの数として類似性計算部５に出力し、類似性計算部５は、入力された所定のビンの数に基づいて上記説明したステップＳ５の処理を行う。

この場合、図１７に示すように、表示部７の類似文書検索結果の表示画面に、所定のビンの数を設定可能なスライダーバーが表示されていてもよい。ユーザは、このスライダーバーのつまみをポインティングデバイスで移動させることにより、所定のビンの数を設定することができる。スライダーバーのつまみは、連続的に移動可能であってもよいし、所定の複数の位置のみに非連続的に移動可能となっていてもよい。この所定の複数の位置は、所定の複数のビンの数に対応している。スライダーバーのつまみの初期位置は、表示部７の類似文書検索結果を得る際に用いた所定のビンの数、言い換えれば所定のビンの数の初期値に対応しているとする。

図１７の例では、スライダーバーの両端に、所定のビンの数を所定の数に設定可能なボタンが表示されている。「よりおおまか」のボタンには、「より詳細」のボタンに対応付けられているビンの数よりも小さなビンの数が対応付けられているとする。また、「よりおおまか」のボタンには所定のビンの数の初期値よりも小さなビンの数が対応付けられており、「より詳細」のボタンには所定のビンの数の初期値よりも大きなビンの数が対応付けられているとする。このように、互いに異なる大きさのビンの数が対応付けられている少なくとも１つのボタンが表示部７に表示されていてもよい。

スライダーバー又はボタンにより所定のビンの数を設定した場合には、設定後の所定のビンの数に対応する類似文書検索結果がリアルタイムに表示されてもよい。すなわち、粒度設定部７１による設定前の所定のビンの数を第一の所定のビンの数とし、粒度設定部７１による設定後の所定のビンの数を第二の所定のビンの数として、表示部７は、粒度設定部７１による設定前の第一の所定のビンの数に基づく第一の類似文書検索結果を表示するとともに、粒度設定部７１による設定後の第二の所定のビンの数に基づく第二の類似文書検索結果を表示してもよい。これにより、ユーザは、粒度設定部７１による設定後の所定のビンの数が、適切なものであったかどうかを確認することができる。

なお、図１７の表示において、ユーザがポインティングデバイスでクエリとの類似性が高い文書として表示されている文書のうちの１つををロールオーバー又は選択すると、その類似性が高い文書の属性頻度系列情報が類似文書検索結果として表示される。また、図１７の表示において、検索のクエリとなる文書の属性頻度系列情報が類似文書検索結果として更に表示されている。

なお、粒度設定部７１による設定前の所定のビンの数を第一の所定のビンの数とし、粒度設定部７１による設定後の所定のビンの数を第二の所定のビンの数として、表示部７は、第一の所定のビンの数により正規化された検索のクエリとなる文書の属性頻度系列情報であるヒストグラムと、第二の所定のビンの数により正規化された検索のクエリとなる文書の属性頻度系列情報であるヒストグラムとを並べて表示してもよい。例えば、表示部７の表示画面の左上に検索のクエリとなる文書の第一の所定のビンの数により正規化された属性頻度系列情報であるヒストグラムが表示され、表示部７の表示画面の左下に同一文書の第二の所定のビンの数により正規化された属性頻度系列情報であるヒストグラムが表示されてもよい。

粒度設定部７１による設定前の第一の所定のビンの数に基づく類似文書検索結果を第一の類似文書検索結果とし、粒度設定部７１による設定後の第二のビンの数に基づく類似文書検索結果を第二の類似文書検索結果としたとき、ユーザがポインティングデバイスで第二の類似文書検索結果に含まれる類似性が高い文書をロールオーバー又は選択すると、選択された類似性が高い文書の属性頻度系列情報が表示されてもよい。ユーザは、異なるビンの数に基づく、検索のクエリとなる文書の属性頻度系列情報であるヒストグラムを同時に把握することができるため、設定後の所定のビンの数が適切なものであったかどうかを更に容易に確認することができる。

なお、この設定後の所定のビンの数に対応する類似文書検索結果の表示は、複数回行うことが可能であってもよい。すなわち、スライダーバー又はボタンにより所定のビンの数が設定される度ごとに、設定後の所定のビンの数に対応する類似文書検索結果が、粒度設定部７１による設定前の類似文書検索結果と共にリアルタイムに表示されてもよい。

なお、図１７において、スライダーバーとボタンから構成された粒度設定部７１に代えて、ボタンのみ、又は、プルダウンメニューで構成された粒度設定部７１が設けられており、このボタンのみ、又は、プルダウンメニューで構成された粒度設定部７１でユーザが所定のビンの数を設定可能であってもよい。

なお、図１４から図１６を用いて説明したように、検索前にユーザが粒度設定部７１を用いて所定のビンの数を設定可能である場合においても、図１７を用いて説明したのと同様の方法により類似文書検索結果の表示画面に表示された粒度設定部７１を用いてユーザが所定のビンの数を設定可能であってもよい。

＜変形例３＞
なお、粒度設定部７１は、所定の単位及び所定のビンの数の両方を設定可能であってもよい。

例えば、S個の所定の単位をi(1),…,i(S)とし、S個の所定のビンの数をj(1),…,j(S)として、所定の単位と所定のビンの数の組(i(s),j(s))(s=1,…,S)が予め定められているとする。

図１４から図１８を用いて説明した「おおまか」「詳細」等のボタン、スライダーバー及びプルダウンメニューには、所定の単位と所定のビンの数の組(i(s),j(s))(s=1,…,S)が対応付けられており、ユーザが、ボタン、スライダーバー及びプルダウンメニューをポインティングデバイスで操作することにより、所定の単位と所定のビンの数の組(i(s),j(s))を選択可能であってもよい。

粒度設定部７１は、ユーザにより所定の単位と所定のビンの数の組(i(s),j(s))が選択されると、その選択された所定の単位i(s)と所定のビンの数j(s)についての情報を、類似性計算部５に出力する。類似性計算部５は、属性頻度系列情報記憶部４に記憶されている属性頻度系列情報の中の、選択された所定の単位i(s)を所定の単位とする属性頻度系列情報と、所定のビンの数j(s)とに基づいてステップＳ５の処理を行う。

変形例１から変形例３をまとめると、粒度設定部７１は、所定の単位及び所定のビンの数の少なくとも一方を設定可能であると言える。

＜変形例４＞
粒度設定部７１は、例えば図１１を用いて説明した方法によりユーザが描写した属性頻度系列情報を表す曲線の傾きの変化率が大きいほど、所定の単位として小さな値又は所定のビンの数として大きな値を設定するものであってもよい。

例えば、ユーザが描写した属性頻度系列情報を表す曲線が、図１９の曲線であったとする。図１９の横軸はページ番号であり、縦軸は上に行くほどpositive度合いが高く下に行くほどnegative度合いが低くなるようなスコアを意味するとする。このようなユーザが描写した属性頻度系列情報を表す曲線の中の最も急峻な傾きを持つ山谷は、ユーザに描かれた以上は意味があるはずなので、その山谷の傾きの急峻さに応じて、所定の単位又は所定のビンの数を設定する。これにより、よりユーザニーズにあった検索を行うことができると考えられる。

例えば、ユーザが描写した曲線の始点から終点までの距離をXとし、ユーザが描写した曲線の極大値から極小値までの距離の中で最も小さいものをΔxとし、Δx以下の値をΔx'として、粒度設定部７１は、X/Δx'を切り上げた値を例えばビンの数とする。

また、異なる所定の単位ごとに、セグメントの総数Sの平均値が計算されているとして、粒度設定部７１は、X/Δx'を切り上げた値に最も近い、セグメントの総数Sの平均値に対応する所定の単位を所定の単位としてもよい。

このように、粒度設定部７１は、ユーザが描写した属性頻度系列情報を表す曲線の中の最も急峻な傾きを持つ山谷を反映できる細かさで所定の単位又は所定のビンの数を設定してもよい。

粒度設定部７１は、設定された所定の単位と所定のビンの数についての情報を、類似性計算部５に出力する。類似性計算部５は、属性頻度系列情報記憶部４に記憶されている属性頻度系列情報の中の、設定された所定の単位に対応する属性頻度系列情報と、設定された所定のビンの数とに基づいてステップＳ５の処理を行う。

＜変形例５＞
粒度設定部７１は、クエリとなる文書に応じて所定の単位及び所定のビンの数を定めてもよい。例えば、クエリとなる文書ごとに、所定の単位及び所定のビンの数が定められているとする。例えば、クエリとなる文書が属する、絵本、児童書、ドキュメントファイル等のカテゴリごとに、所定の単位及び所定のビンの数が定められているとする。

粒度設定部７１は、クエリとなる文書が入力されると、その入力されたクエリとなる文書に対応する所定の単位及び所定のビンの数を読み込み、読み込んだ所定の単位及び所定のビンの数についての情報を、類似性計算部５に出力する。類似性計算部５は、属性頻度系列情報記憶部４に記憶されている属性頻度系列情報の中の、設定された所定の単位に対応する属性頻度系列情報と、設定された所定のビンの数とに基づいてステップＳ５の処理を行う。

＜変形例６＞
また、所定の単位及び所定のビンの数は、ユーザがクエリとなる文書を入力する際に、粒度設定部７１を操作することにより手動で設定可能であってもよい。

粒度設定部７１は、所定の単位及び所定のビンの数が設定されると、設定された所定の単位及び所定のビンの数についての情報を、類似性計算部５に出力する。類似性計算部５は、属性頻度系列情報記憶部４に記憶されている属性頻度系列情報の中の設定された所定の単位に対応する属性頻度系列情報と、設定された所定のビンの数とに基づいてステップＳ５の処理を行う。

＜変形例７＞
各単語に対応する属性の割り当てが定義されている第一の単語属性割当と、第一の単語属性割当とは異なる、各単語に対応する属性の割り当てが定義されている第二の単語属性割当とがあるとする。

この場合、類似文書検索装置は、第一の単語属性割当に基づく検索により文書をフィルタリングした後に、第二の単語属性割当に基づく検索を行ってもいよい。例えば、第一の単語属性割当の種別と第二の単語属性割当の種別が異なるように、第一の単語属性割当及び第二の単語属性割当を設定する。例えば、第一の単語属性割当を「喜」「怒」「哀」「楽」の極性を用いた割り当てとし、第二の単語属性割当を参考文献５に記載されたトピックモデルを用いたトピック抽出の手法を用いた割り当てとする。これにより、異なる観点から検索結果を絞り込むことができる。

すなわち、第一の単語属性割当に基づく各単語の属性と、第二の単語属性割当に基づく各単語の属性とが単語属性記憶部２に記憶されているとして、類似文書検索装置は、単語属性記憶部２から読み込んだ第一の単語属性割当に基づく単語の属性に基づいて属性頻度系列情報生成部３、類似性計算部５及び類似文書情報出力部６の処理を行うことにより仮の類似文書を得た後に、その仮の類似文書を対象として、単語属性記憶部２から読み込んだ第二の単語属性割当に基づく単語の属性に基づいて属性頻度系列情報生成部３、類似性計算部５及び類似文書情報出力部６の処理を行うことにより最終的な類似文書検索結果を得てもよい。

なお、ユーザが第一の単語属性割当及び第二の単語属性割当のそれぞれを選択可能であってもよい。これにより、第二の単語属性割当よりも第一の単語属性割当を重視した検索が可能となる。また、第一の単語属性割当による検索により提示された文書の数が多い場合には、第二の単語属性割当による検索を行うことにより、第二の単語属性割当の観点から絞り込みを行うことができる。これにより、ユーザがより所望の検索を行うことができる。

＜変形例８＞
単語抽出部１及び属性頻度系列情報生成部３の処理は、類似性計算部５、類似文書情報出力部６及び表示部７の処理に先だって行われてもよいし、単語抽出部１及び属性頻度系列情報生成部３の処理と、類似性計算部５、類似文書情報出力部６及び表示部７の処理とが同時並行的に行われてもよい。

また、単語抽出部１、単語属性記憶部２及び属性頻度系列情報生成部３を用いて行われるステップＳ１からステップＳ３の処理は、類似性の計算及び類似文書の検索に先立つ前処理である。このため、類似性計算装置２０及び類似文書検索装置は、図１において一点鎖線で囲まれた単語抽出部１、単語属性記憶部２及び属性頻度系列情報生成部３を備えていなくてもよい。また、類似性計算方法及び類似文書検索方法は、図２において一点鎖線で囲まれたステップＳ１及びステップＳ３の処理を有していなくてもよい。

言い換えれば、類似性計算装置２０は、属性頻度系列情報記憶部４及び類似性計算部５のみを備えていてもよい。また、類似文書検索装置は、属性頻度系列情報記憶部４、類似性計算部５、類似文書情報出力部６及び表示部７のみを備えていてもよい。また、類似性計算方法は、ステップＳ５の処理のみを有していてもよい。また、類似文書検索方法は、ステップＳ５からステップＳ７の処理のみを有していてもよい。

これらの場合、属性頻度系列情報記憶部４には、類似性計算装置２０及び類似文書検索装置とは異なる装置に設けられた単語抽出部１、単語属性記憶部２及び属性頻度系列情報生成部３により生成された属性頻度系列情報が予め記憶されているとする。

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

＜プログラム及び記録媒体＞
類似文書検索装置又は類似性計算装置２０の各部における処理をコンピュータによって実現する場合、類似文書検索装置又は類似性計算装置２０の各部がが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各部の処理がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、各部の処理は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理の少なくとも一部をハードウェア的に実現することとしてもよい。

１単語抽出部
２単語属性記憶部
３属性頻度系列情報生成部
４属性頻度系列情報記憶部
５類似性計算部
６類似文書情報出力部
７表示部
７１粒度設定部
７２入力部
８属性割当部
２０類似性計算装置

Claims

文書はその文書を所定の単位で分割することにより得られる複数のセグメントにより構成されているとし、文書の属性頻度系列情報をその文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度の系列を表す情報として、各文書の属性頻度系列情報が記憶されている属性頻度系列情報記憶部と、
上記属性頻度系列情報記憶部から読み込んだある文書の属性頻度系列情報と、入力された属性頻度系列情報との類似性を計算する類似性計算部と、
を含む類似性計算装置。
請求項１の類似性計算装置であって、
各単語が異なる少なくとも１つのグループに属するように、検索対象とする文書集合を構成する文書に含まれる一部又は全部の単語がグループ分けされているとして、単語に対応する属性は、その単語が属するグループ、又は、何れのグループにも属さないという属性である、
類似性計算装置。
請求項２の類似性計算装置であって、
上記検索対象とする文書集合に含まれる文書を1,…,Cとし、検索対象とする文書集合に含まれる文書1,…,Cに出現する自立語は1,…,Vであるとし、v=1,…,Vとし、Dを予め定められた正の整数とし、上記検索対象とする文書集合の中の自立語vが出現する文書の数df(v)が大きい方からD個の自立語を1,…,Dとし、c=1,…,Cとし、Nを予め定められた正の整数とし、上記検索対象とする文書集合に含まれる文書cに出現するD個の自立語の中の自立語の数M(c)が大きい方からN個の文書を1,…,Nとし、d=1,…,Dとし、n=1,…,Nとし、自立語dが文書nに出現する回数をO(n,d)とし、自立語dに対応するベクトルを(O(1,d),…,O(N,d))とし、対応するベクトルに基づいて自立語1,…,Dをクラスタリングすることにより各自立語1,…,Dがグループ分けされているとして、上記各単語は上記各自立語各1,…,Dである、
類似性計算装置。
請求項１から３の何れかの類似性計算装置であって、
単語に対応する属性は、その単語がポジティブな印象とネガティブな印象のどちらを与えるかについての情報である、
類似性計算装置。
請求項１から４の何れかの類似性計算装置であって、
ある文書は、S個のセグメント1,…,Sで構成されているとし、単語に対応する属性はA個の属性1,…,Aであるとし、s=1,…,S,として、a=1,…,Aとし、セグメントsに含まれる単語tの頻度を表す指標をHs(t)とし、セグメントsに含まれる対応する属性がaである単語ts(a)の集合を{ts(a)}とし、セグメントsにおける属性aの頻度Fs(a)はFs(a)=Σts(a)∈{ts(a)}Hs(ts(a))であるとして、上記ある文書の属性頻度系列情報は、((F1(1),…,F1(A)),…,(FS(1),…,FS(A))を表す情報であり、
上記セグメントsに含まれる単語tの頻度を表す指標Hs(t)は、上記ある文書の中の単語tが含まれるセグメントの個数が多いほど小さな値を取る、
類似性計算装置。
請求項５の類似性計算装置であって、
上記セグメントsに含まれる単語tの頻度をHs(t)'とし、上記ある文書の中の単語tが含まれるセグメントの個数をf(t)として、Hs(t)=Hs(t)'×log(S/f(t))である、
類似性計算装置。
請求項１から６の何れかの類似性計算装置であって、
各文書を構成する複数のセグメントのそれぞれに含まれる単語を抽出する単語抽出部と、
複数の単語のそれぞれに対応する属性が記憶されている単語属性記憶部と、
上記抽出された単語に対応する属性を上記単語属性記憶部から読み込み、上記各文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度をカウントすることにより、上記各文書の属性頻度系列情報を求め、上記属性頻度系列情報記憶部に記憶させる属性頻度系列情報生成部と、
を含む類似性計算装置。
請求項１から７の何れかの類似性計算装置を含み、
上記類似性計算部は、上記属性頻度系列情報記憶部から読み込んだ各文書の属性頻度系列情報と、入力された属性頻度系列情報との類似性を計算し、
上記計算された類似性が高い文書についての情報を出力する類似文書情報出力部を更に含む、
類似文書検索装置。
文書はその文書を所定の単位で分割することにより得られる複数のセグメントにより構成されているとし、文書の属性頻度系列情報をその文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度の系列を表す情報として、類似性計算部が、各文書の属性頻度系列情報が記憶されているから読み込んだある文書の属性頻度系列情報と、入力された属性頻度系列情報との類似性を計算する類似性計算ステップ、
を含む類似性計算方法。
請求項９の類似性計算方法を含み、
上記類似性計算ステップは、上記属性頻度系列情報記憶部から読み込んだ各文書の属性頻度系列情報と、入力された属性頻度系列情報との類似性を計算し、
類似文書情報出力部が、上記計算された類似性が高い文書についての情報を出力する類似文書情報出力ステップを更に含む、
類似文書検索方法。
請求項１から７の何れかの類似性計算装置又は請求項８の類似文書検索装置の各部としてコンピュータを機能させるためのプログラム。