JP2019008573A - Similar document retrieval device, similar document retrieval method and program - Google Patents

Similar document retrieval device, similar document retrieval method and program Download PDF

Info

Publication number
JP2019008573A
JP2019008573A JP2017123990A JP2017123990A JP2019008573A JP 2019008573 A JP2019008573 A JP 2019008573A JP 2017123990 A JP2017123990 A JP 2017123990A JP 2017123990 A JP2017123990 A JP 2017123990A JP 2019008573 A JP2019008573 A JP 2019008573A
Authority
JP
Japan
Prior art keywords
unit
attribute
frequency series
series information
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017123990A
Other languages
Japanese (ja)
Other versions
JP6612291B2 (en
Inventor
正嗣 服部
Masatsugu Hattori
正嗣 服部
早苗 藤田
Sanae Fujita
早苗 藤田
一生 青山
Kazuo Aoyama
一生 青山
優子 奥村
Yuko Okumura
優子 奥村
哲生 小林
Tetsuo Kobayashi
哲生 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017123990A priority Critical patent/JP6612291B2/en
Publication of JP2019008573A publication Critical patent/JP2019008573A/en
Application granted granted Critical
Publication of JP6612291B2 publication Critical patent/JP6612291B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To provide a document retrieval technique that does not need manual works with respect to documents such as preparations of impression notes, allocations of tags, and the like.SOLUTION: Assuming that documents are composed of a plurality of segments to be obtained through dividing of the document by a prescribed unit, and information attribute frequency series information on a document is information representing a series of frequency of an attribute corresponding to a word included in each of the plurality of segments composing the document, a similarity document retrieval device comprises: an input 71 that receives an input of attribute frequency series information; and a display unit 7 that displays information about the document with the input attribute frequency series information, and the attribute frequency series information high in similarity as a similar document retrieval result.SELECTED DRAWING: Figure 1

Description

この発明は、文書を検索する技術並びに文書の検索及び表示に用いられる技術に関する。   The present invention relates to a technique for searching for a document and a technique used for searching and displaying a document.

「ハッピーエンドの本を読んであげたい。」「たまには悲しいお話を読んであげよう。」等の、話の類型に基づく絵本等の文書を検索したいという需要がある。   There is a demand for searching for textbook-based documents such as “I want to read a happy-end book” or “Sometimes I will read a sad story”.

話の類型に基づく絵本等の文書の検索は、以下の2個の方法により実現することができる。   Searching for a document such as a picture book based on the type of story can be realized by the following two methods.

1個目の方法は、予め作成された、文書の感想文に基づいて、話の類型に基づく絵本等の文書の検索を行うというものである。例えば、「ハッピーエンド」「悲しいお話」をキーワードとして文書の感想文の一致検索を行うことができる。   The first method is to search for a document such as a picture book based on a story type based on an impression sentence of the document created in advance. For example, it is possible to perform a search for matching impressions of documents using “happy ending” and “sad story” as keywords.

2個目の方法は、「ハッピーエンド」「悲しいお話」等のタグを文書に予め人手で付与しておき、このタグをキーワードとして検索を行うというものである(例えば、非特許文献1参照。)。   The second method is to manually add tags such as “happy ending” and “sad story” to a document in advance and perform a search using this tag as a keyword (see, for example, Non-Patent Document 1). ).

鳴門教育大学附属図書館、"絵本データベース"、[平成29年4月14日検索]、インターネット〈URL:http://www.naruto-u.ac.jp/library/jidou/005.html〉Naruto University of Education Library, “Picture Book Database”, [Search April 14, 2017], Internet <URL: http://www.naruto-u.ac.jp/library/jidou/005.html>

しかし、上記の1個目の方法では、発売間もない、人気がない等の理由により絵本に感想文がない場合には、検索を行うことができないという問題がある。また、上記の2個目の方法では、人手によるタグの付与の負担が大きいという問題がある。   However, the above-mentioned first method has a problem that the search cannot be performed if the picture book does not have an impression sentence because it is not released or popular. In addition, the second method has a problem that the burden of manually attaching tags is large.

この発明の目的は、感想文の作成、タグの付与等の文書に対する人手による作業が不要な類似文書検索装置、方法及びプログラムを提供することである。   An object of the present invention is to provide a similar document search apparatus, method, and program that do not require manual work on a document such as creation of a comment sentence or tag assignment.

この発明の一態様による類似文書検索装置は、文書はその文書を所定の単位で分割することにより得られる複数のセグメントにより構成されているとし、文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度の系列を表す情報を属性頻度系列情報として、ユーザにより選択又は描画された属性頻度系列情報の入力を受け付ける入力部と、入力された属性頻度系列情報と類似度が高い属性頻度系列情報を有する文書についての情報を類似文書検索結果として表示する表示部と、を備えている。   In the similar document search device according to one aspect of the present invention, a document is composed of a plurality of segments obtained by dividing the document into predetermined units, and words included in each of the plurality of segments constituting the document The attribute frequency series information as an attribute frequency series information, and an input unit that accepts input of attribute frequency series information selected or drawn by the user, and an attribute having a high degree of similarity to the input attribute frequency series information And a display unit for displaying information on the document having frequency series information as a similar document search result.

感想文の作成、タグの付与等の文書に対する人手による作業が不要となる。   There is no need for manual work on the document, such as creating an impression sentence and assigning a tag.

類似文書検索装置の例を示すブロック図。The block diagram which shows the example of a similar document search apparatus. 類似文書検索方法の例を示す流れ図。The flowchart which shows the example of the similar document search method. 属性頻度系列情報の例を示す図。The figure which shows the example of attribute frequency series information. 属性頻度系列情報の例を示す図。The figure which shows the example of attribute frequency series information. ヒストグラムの正規化の例を説明するための図。The figure for demonstrating the example of normalization of a histogram. ヒストグラムの正規化の例を説明するための図。The figure for demonstrating the example of normalization of a histogram. ヒストグラムの正規化の例を説明するための図。The figure for demonstrating the example of normalization of a histogram. 属性頻度系列情報の選択の例を説明するための図。The figure for demonstrating the example of selection of attribute frequency series information. 属性頻度系列情報の選択の例を説明するための図。The figure for demonstrating the example of selection of attribute frequency series information. 属性頻度系列情報の選択の例を説明するための図。The figure for demonstrating the example of selection of attribute frequency series information. 属性頻度系列情報の描写の例を説明するための図。The figure for demonstrating the example of description of attribute frequency series information. 類似文書検索結果の例を示す図。The figure which shows the example of a similar document search result. 類似文書検索結果の例を示す図。The figure which shows the example of a similar document search result. 所定の単位又は所定のビンの数の設定の例を説明するための図。The figure for demonstrating the example of the setting of a predetermined unit or the number of predetermined bins. 所定の単位又は所定のビンの数の設定の例を説明するための図。The figure for demonstrating the example of the setting of a predetermined unit or the number of predetermined bins. 所定の単位又は所定のビンの数の設定の例を説明するための図。The figure for demonstrating the example of the setting of a predetermined unit or the number of predetermined bins. 所定の単位又は所定のビンの数の設定の例を説明するための図。The figure for demonstrating the example of the setting of a predetermined unit or the number of predetermined bins. 類似文書検索結果の例を示す図。The figure which shows the example of a similar document search result. 所定の単位又は所定のビンの数の設定の例を説明するための図。The figure for demonstrating the example of the setting of a predetermined unit or the number of predetermined bins.

[実施形態]
以下、図面を参照して、この発明の一実施形態について説明する。
[Embodiment]
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.

図1に、類似文書検索装置の構成例を示す。類似文書検索装置は、図1に示すように、単語抽出部1、単語属性記憶部2、属性頻度系列情報生成部3、属性頻度系列情報記憶部4、類似性計算部5、類似文書情報出力部6及び表示部7を例えば備えている。表示部7は、粒度設定部71及び入力部72を含んでいる。   FIG. 1 shows a configuration example of a similar document search apparatus. As shown in FIG. 1, the similar document search device includes a word extraction unit 1, a word attribute storage unit 2, an attribute frequency series information generation unit 3, an attribute frequency series information storage unit 4, a similarity calculation unit 5, and a similar document information output. For example, a unit 6 and a display unit 7 are provided. The display unit 7 includes a granularity setting unit 71 and an input unit 72.

類似文書検索方法は、類似文書検索装置の各部が、図2に示すステップS1からステップS7の処理を行うことにより例えば実現される。   The similar document search method is realized, for example, when each unit of the similar document search apparatus performs the processing from step S1 to step S7 shown in FIG.

類似性計算装置20は、図1に示すように、単語抽出部1、単語属性記憶部2、属性頻度系列情報生成部3、属性頻度系列情報記憶部4、類似性計算部5を例えば備えている。   As shown in FIG. 1, the similarity calculation apparatus 20 includes, for example, a word extraction unit 1, a word attribute storage unit 2, an attribute frequency series information generation unit 3, an attribute frequency series information storage unit 4, and a similarity calculation unit 5. Yes.

類似性計算方法は、類似性計算装置の各部が、図2に示すステップS1からステップS5の処理を行うことにより例えば実現される。   The similarity calculation method is realized by, for example, each unit of the similarity calculation apparatus performing the processing from step S1 to step S5 illustrated in FIG.

<単語抽出部1>
単語抽出部1は、文書を入力とし、入力された各文書を構成する複数のセグメントのそれぞれに含まれる単語を抽出し(ステップS1)、抽出した単語を属性頻度系列情報生成部3に出力する。
<Word extraction unit 1>
The word extraction unit 1 takes a document as an input, extracts a word included in each of a plurality of segments constituting each input document (step S1), and outputs the extracted word to the attribute frequency series information generation unit 3 .

文書は、文字や絵が記載された、書籍、雑誌、新聞等の紙媒体の文書であってもよいし、ウェブページ、電子書籍、ソースコード等の電子媒体の電子文書であってもよい。文書の一例は、絵本である。また、電子文書の例は、XML等のマークアップ言語で記述され、構造化された電子文書である。   The document may be a paper document such as a book, magazine, or newspaper in which characters or pictures are written, or may be an electronic document such as a web page, electronic book, or source code. An example of a document is a picture book. An example of an electronic document is a structured electronic document described in a markup language such as XML.

文書は、その文書を所定の単位で分割することにより得られる複数のセグメントにより構成されているとする。所定の単位は、センテンス、ページ、段落、章等の文書を構成する単位のことである。このように、所定の単位は、ページ等の表示上の制約による区切りであってもよいし、作者が意図的に話を区切った区切りである段落、章(章は作者がストーリーの展開をまとめているもの)であってもよい。   It is assumed that the document is composed of a plurality of segments obtained by dividing the document into predetermined units. The predetermined unit is a unit constituting a document such as a sentence, a page, a paragraph, and a chapter. In this way, the predetermined unit may be a break due to display restrictions such as pages, etc., or a paragraph or chapter where the author intentionally breaks the story (the chapter summarizes the story development by the author) May be).

文書がXML等のマークアップ言語で記述され、構造化された電子文書である場合には、構造化された電子文書の要素を所定の単位とすることができる。所定の単位は、上記に例示した文書を構成する単位の複数個であってもよい。例えば、所定の単位は、1ページであってもよいし、2ページであってもよい。なお、後述するように、粒度設定部71により、所定の単位の大きさが設定される場合がある。   When the document is a structured electronic document described in a markup language such as XML, the elements of the structured electronic document can be set as a predetermined unit. The predetermined unit may be a plurality of units constituting the document exemplified above. For example, the predetermined unit may be one page or two pages. As will be described later, the granularity setting unit 71 may set a predetermined unit size.

例えば、文書が絵本である場合には、表示上の制約による区切りの例であるページを所定の単位としてもよい。これは、絵本は、絵と文字が相補的に用いられているコンテンツであり、ページを1つの単位としてデザインされていることが多いため、ページを所定の単位とすることによりストーリー展開が表しやすくなるためである。   For example, when the document is a picture book, a page that is an example of a break due to display restrictions may be used as a predetermined unit. This is because picture books are content in which pictures and characters are used in a complementary manner, and are often designed with a page as one unit, so that story development can be easily expressed by using a page as a predetermined unit. It is to become.

比較的低年齢に向けて書かれており、見開きの2ページを1つの単位としてデザインされている絵本が文書である場合には、2ページを所定の単位としてもよい。   When a picture book that is written for a relatively young age and is designed with two spread pages as one unit is a document, two pages may be set as a predetermined unit.

また、文書が児童書及び小説等のストーリーが比較的長く複雑な文書である場合には、作者が意図的に話を区切った区切りの例である章を所定の単位としてもよい。これは、このような文書に対しては、単に「表示上の制約による区切り」を所定の単位とするよりも「作者が意図的にお話を区切った区切り」を所定の単位とした方がストーリー展開を表しやすいためである。   In addition, when the document is a relatively long and complicated document such as a children's book or a novel, a chapter that is an example of a delimiter in which the author deliberately divides the story may be used as the predetermined unit. This is because, for such a document, it is better to use “delimiter where the author deliberately divides the story” as the predetermined unit than simply “delimitation due to display restrictions” as the predetermined unit. This is because it is easy to represent the development.

単語の抽出は、例えば、文書を形態素解析した後に、その形態素解析の結果から自立語(名詞、動詞、形容詞等それ自体で意味をなす語)と打消し表現(助動詞「ない」、形容詞「悪い」など)を抜き出すことにより行うことができる。形態素解析処理によって、入力文書の分割を行い、品詞単位での分割による単語列を抽出し、それぞれの単語に品詞を付与し、特定の品詞に該当する単語を取り出す処理を行うことによって、自立語とそれに付随する打消し表現を抜き出す。   For example, after extracting a word from a morphological analysis, a word is extracted from the result of the morphological analysis. Etc.). Independent words by dividing input documents by morphological analysis processing, extracting word strings by segmentation in parts of speech, adding parts of speech to each word, and extracting words corresponding to specific parts of speech And the cancellation expression that accompanies it.

所定の単位が1ページである場合には、各文書のページごとに、各ページに含まれる単語が抽出される。例えば、ある文書のページ1に「戦争がはじまった。肉食獣は殺された。」という文章が記載され、ページ2に「ゾウは素晴らしい芸をするが、動物園職員は楽しめない。」、ページ3に「結局、ゾウも死んだ。」と記載されているとする。この場合、ページ1からは、「戦争がはじまった。肉食獣は殺された。」という文章から、形態素解析器を用いることで例えば下記のような形態素解析結果が得られる。
戦争 名詞,サ変接続,*,*,*,*,戦争,センソウ,センソー
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
はじまっ動詞,自立,*,*,五段・ラ行,連用タ接続,はじまる,ハジマッ,ハジマッ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。 記号,句点,*,*,*,*,。,。,。
肉食 名詞,サ変接続,*,*,*,*,肉食,ニクショク,ニクショク
獣 名詞,接尾,一般,*,*,*,獣,ジュウ,ジュウ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
殺さ 動詞,自立,*,*,五段・サ行,未然形,殺す,コロサ,コロサ
れ 動詞,接尾,*,*,一段,連用形,れる,レ,レ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。 記号,句点,*,*,*,*,。,。,。
EOS
When the predetermined unit is one page, words included in each page are extracted for each page of each document. For example, page 1 of a document contains the sentence “The war has begun. Carnivores have been killed.” Page 2 “Elephants do great tricks, but zoo staff cannot enjoy.” Page 3 , "The elephant died after all." In this case, for example, the following morphological analysis results can be obtained from page 1 by using the morphological analyzer from the sentence “The war has started. The carnivores have been killed.”
War nouns, weird transformations, *, *, *, *, wars, senso, senso are particles, case particles, general, *, *, *, ga, ga begins verbs, independence, *, *, five steps La line, continuous connection, beginning, hajima, hajimat, auxiliary verb, *, *, *, special, ta, basic form, ta, ta, ta. Symbol, punctuation, *, *, *, *. ,. ,.
Carnivorous nouns, savory connections, *, *, *, *, carnivorous, nikshoku, nikshoku beasts nouns, suffixes, general, *, *, *, beasts, ju, juju are particles, particle, *, *, * , Ha, wa killed verb, independence, *, *, five steps, sa line, form, kill, corosa, corrosa verb, suffix, *, *, single step, combined form, le, le auxiliary verb, *, *, *, Special / t, basic form, t, t, t. Symbol, punctuation, *, *, *, *. ,. ,.
EOS

もとの文章から分かち書かれた単語の出現形の後に、コンマ区切りで品詞情報(最初の2要素)やその標準形(6番目の要素)が得られる。品詞情報が自立語に該当するものの標準形を抽出すると、自立語である「戦争」「はじまる」「肉食」「獣」「殺す」という単語が得られる。また、ページ2からは、「ゾウは素晴らしい芸をするが、動物園職員は楽しめない。」という文章から、例えば下記のような形態素解析結果が得られる。
ゾウ 名詞,普通名詞,一般,*,*,*,ゾウ,象,ゾウ,ゾー,ゾウ,ゾー,漢,*,*,*,*
は 助詞,係助詞,*,*,*,*,ハ,は,は,ワ,は,ワ,和,*,*,*,*
素晴らしい 形容詞,一般,*,*,形容詞,連体形-一般,スバラシイ,素晴らしい,素晴ら しい,スバラシー,素晴らしい,スバラシー,和,*,*,*,*
芸 名詞,普通名詞,一般,*,*,*,ゲイ,芸,芸,ゲー,芸,ゲー,漢,*,*,*,*
を 助詞,格助詞,*,*,*,*,ヲ,を,を,オ,を,オ,和,*,*,*,*
する 動詞,非自立可能,*,*,サ行変格,終止形-一般,スル,為る,する,スル,する,スル, 和,*,*,*,*
が 助詞,接続助詞,*,*,*,*,ガ,が,が,ガ,が,ガ,和,*,*,*,*
、 補助記号,読点,*,*,*,*,,、,、,,、,,記号,*,*,*,*
動物 名詞,普通名詞,一般,*,*,*,ドウブツ,動物,動物,ドーブツ,動物,ドーブツ,漢,*,*,*,*
園 接尾辞,名詞的,一般,*,*,*,エン,園,園,エン,園,エン,漢,*,*,*,*
職員 名詞,普通名詞,一般,*,*,*,ショクイン,職員,職員,ショクイン,職員,ショクイン,漢,*,*,*,*
は 助詞,係助詞,*,*,*,*,ハ,は,は,ワ,は,ワ,和,*,*,*,*
楽しめ 動詞,一般,*,*,下一段-マ行,未然形-一般,タノシム,楽しむ,楽しめ,タノシメ,楽しめる,タノシメル,和,*,*,*,*
ない 助動詞,*,*,*,助動詞-ナイ,終止形-一般,ナイ,ない,ない,ナイ,ない,ナイ,和,*,*,*,*
。 補助記号,句点,*,*,*,*,,。,。,,。,,記号,*,*,*,*
EOS
Part-of-speech information (first two elements) and its standard form (sixth element) are obtained in comma-separated form after the appearance form of the word written from the original sentence. If the standard form of part-of-speech information corresponding to an independent word is extracted, the words “war”, “start”, “carnivorous”, “beast”, and “kill” are obtained. Also, from page 2, the following morphological analysis results can be obtained from the sentence “Elephant performs wonderfully, but zoo staff cannot enjoy it”.
Elephant noun, common noun, general, *, *, *, elephant, elephant, elephant, zo, elephant, zo, han, *, *, *, *
Is a particle, coordinator, *, *, *, *, ha, ha, wa, wa, wa, sum, *, *, *, *
Awesome adjective, general, *, *, adjective, community-general, subarusy, great, awesome, subashi, great, subaru, sum, *, *, *, *
Art noun, common noun, general, *, *, *, gay, art, art, game, art, game, Han, *, *, *, *
A particle, case particle, *, *, *, *, wo, a, o, a, o, sum, *, *, *, *
To verb, non-self-sustainable, *, *, sa line modification, ending form-general, sur, do, do, sur, do, sur, sum, *, *, *, *
Is particle, connective particle, *, *, *, *, ga, ga, ga, ga, ga, ga, sum, *, *, *, *
, Supplementary symbols, punctuation marks, *, *, *, * ,,,,,,,,, symbols, *, *, *, *
Animal noun, common noun, general, *, *, *, dove butterfly, animal, animal, dove butterfly, animal, dove butterfly, han, *, *, *, *
Soen Suffix, Noun, General, *, *, *, En, Soen, Soen, En, Soen, En, Han, *, *, *, *
Staff noun, common noun, general, *, *, *, schoin, staff, staff, schoin, staff, schoin, han, *, *, *, *
Is a particle, coordinator, *, *, *, *, ha, ha, wa, wa, wa, sum, *, *, *, *
Enjoy Verb, General, *, *, Lower 1st-Ma Line, Blank Form-General, Tanoshim, Enjoy, Enjoy, Tanoshime, Enjoy, Tanoshimeru, Sum, *, *, *, *
No auxiliary verb, *, *, *, auxiliary verb-nai, final form-general, nai, not, not, nai, not, nai, sum, *, *, *, *
. Auxiliary symbols, punctuation marks, *, *, *, * ,. ,. ,,. ,,symbol,*,*,*,*
EOS

前述の方法と同様の方法により、「ゾウ」「素晴らしい」「芸」「動物」「園」「職員」「楽しむ」という単語が抽出され、そのうち、「楽しむ」には直後に否定あるいは打ち消しを表す助動詞「ない」が存在することから、「楽しむ(打ち消し)」と記録する。また、ページ3からは、「結局、ゾウも死んだ。」という文章から例えば下記のような形態素解析結果が得られる。
結局 名詞,副詞可能,*,*,*,*,結局,ケッキョク,ケッキョク
、 記号,読点,*,*,*,*,、,、,、
ゾウ 名詞,一般,*,*,*,*,ゾウ,ゾウ,ゾー
も 助詞,係助詞,*,*,*,*,も,モ,モ
死ん 動詞,自立,*,*,五段・ナ行,連用タ接続,死ぬ,シン,シン
だ 助動詞,*,*,*,特殊・タ,基本形,だ,ダ,ダ
。 記号,句点,*,*,*,*,。,。,。
EOS
In the same way as described above, the words "elephant", "great", "gei", "animal", "garden", "staff", and "enjoy" are extracted. Since there is an auxiliary verb "No", record "Enjoy (cancel)". Further, from page 3, for example, the following morpheme analysis result is obtained from the sentence “Elephant died after all”.
After all, noun, adverb possible, *, *, *, *, after all, sign, mark, symbol, punctuation, *, *, *, *, ...
Elephant noun, general, *, *, *, *, elephant, elephant, zo also particle, coordinator, *, *, *, *, m, mo dead verb, independence, *, *, five steps Line, continuous connection, die, thin, thin auxiliary verb, *, *, *, special, basic, basic, da, da. Symbol, punctuation, *, *, *, *. ,. ,.
EOS

前述の方法と同様の方法により、「結局」「ゾウ」「死ぬ」という単語が抽出される。   By the same method as described above, the words “finally”, “elephant” and “die” are extracted.

なお、ページ2の「ゾウは素晴らしい芸をするが、動物園職員は楽しめない。」という文章の中の「楽しめない」という部分に対応する単語として「楽しむ」「ない」という単語が形態素解析により得られるとする。上記の「楽しむ(打消し)」という単語は、「楽しむ」から3単語以内に「ない」という打ち消しの助動詞があったために、「楽しむ」という単語の出現とその文書内での役割を補正する必要があることを意味する単語である。このように、形態素解析により得られた単語列において、ある単語Aから所定の個数の単語(上記の例では3単語)以内に打ち消しの助動詞「ない」及び形容詞「悪い」等の否定的な表現が出現する場合には、単語Aを「単語A(打消し)」としてもよい。   It should be noted that the words “Enjoy” and “None” are obtained by morphological analysis as the words corresponding to the “Unable to enjoy” part of the sentence “The elephant does great art but cannot enjoy the zoo staff” on page 2. Suppose that The word “enjoy (cancel)” above corrects the appearance of the word “enjoy” and its role in the document because there is a cancellation verb “no” within 3 words from “enjoy”. A word that means that it is necessary. In this way, in the word string obtained by morphological analysis, negative expressions such as “no” and “bad” adjunctive auxiliary verbs within a predetermined number of words (three words in the above example) from a certain word A May appear as “word A (cancellation)”.

<単語属性記憶部2>
単語属性記憶部2には、複数の単語のそれぞれに対応する属性が記憶されている。
<Word attribute storage unit 2>
The word attribute storage unit 2 stores attributes corresponding to each of a plurality of words.

属性の例は、「positive」「negative」という極性である。言い換えれば、単語に対応する属性は、その単語がポジティブな印象とネガティブな印象のどちらを与えるかについての情報である。例えば、日本語評価極性辞書(例えば、参考文献1,2参照。)では、各単語に、「positive」という属性、又は、「negative」という属性が割り当てられている。各単語の属性として、この日本語評価極性辞書で割り当てられた「positive」又は「negative」という極性を用いることができる。
〔参考文献1〕小林のぞみ,乾健太郎,松本裕治,立石健二,福島俊一, "意見抽出のための評価表現の収集", 自然言語処理,Vol.12, No.3, pp.203-222, 2005.
〔参考文献2〕東山昌彦, 乾健太郎, 松本裕治, "述語の選択選好性に着目した名詞評価極性の獲得", 言語処理学会第14回年次大会論文集, pp.584-587, 2008.
Examples of attributes are “positive” and “negative” polarities. In other words, the attribute corresponding to the word is information about whether the word gives a positive impression or a negative impression. For example, in a Japanese language evaluation polarity dictionary (for example, see References 1 and 2), an attribute “positive” or an attribute “negative” is assigned to each word. As the attribute of each word, the polarity of “positive” or “negative” assigned in the Japanese evaluation polarity dictionary can be used.
[Reference 1] Nozomi Kobayashi, Kentaro Inui, Yuji Matsumoto, Kenji Tateishi, Shunichi Fukushima, "Collection of Evaluation Expressions for Opinion Extraction", Natural Language Processing, Vol.12, No.3, pp.203-222, 2005.
[Reference 2] Masahiko Higashiyama, Kentaro Inui, Yuji Matsumoto, “Acquiring Noun Evaluation Polarity Focusing on Preferential Predicate Preference”, Proc. 14th Annual Conference of the Language Processing Society, pp.584-587, 2008.

例えば、「戦争」という単語に対応する属性として「negative」という極性が割り当てられており、「素晴らしい」という単語に対応する属性として「positive」という極性が割り当てられており、「楽しむ」という単語に対応する属性として「positive」という極性が割り当てられており、「死ぬ」という単語に対応する属性として「negative」という極性が割り当てられているとする。   For example, the polarity “negative” is assigned as an attribute corresponding to the word “war”, the polarity “positive” is assigned as an attribute corresponding to the word “great”, and the word “enjoy” Assume that the polarity “positive” is assigned as the corresponding attribute, and the polarity “negative” is assigned as the attribute corresponding to the word “die”.

単語の属性として、「positive」「negative」という2種の極性以外の属性を用いてもよい。例えば、上記日本語評価極性辞書に登録されていない又は単語属性記憶部2に記憶されていない単語の属性を「even」とすることにより、「positive」「negative」「even」という3種の極性を用いてもよい。また、「喜」「怒」「哀」「楽」等の上記の「positive」「negative」という2種の評価極性を更に細分化した4種の極性を用いてもよい。また、単語の属性は、「positive」又は「negative」という1種の極性だけであってもよい。このように、単語の属性は、1種類であっても、2種以上であってもよい。   As the attribute of the word, an attribute other than the two polarities such as “positive” and “negative” may be used. For example, by setting the attribute of a word that is not registered in the Japanese evaluation polarity dictionary or not stored in the word attribute storage unit 2 to “even”, three types of polarity “positive”, “negative”, and “even” May be used. Further, four types of polarities obtained by further subdividing the above two types of evaluation polarities such as “positive” and “negative” such as “joy”, “anger”, “sorrow”, and “easy” may be used. Further, the attribute of the word may be only one kind of polarity such as “positive” or “negative”. As described above, the word attributes may be one type or two or more types.

さらに、辞書に記載されている単語群に属するか否かの情報を属性とするなど、所定の辞書に載っている単語であるか否かの情報を属性としてもよい。例えば、ある単語が、発達心理学等で重要視される「こころの発達」に寄与する所定の単語群に属するか否かをその単語の属性としてもよい。こころの発達に寄与する単語とは、言い換えれば子どもの感情に関わる単語のことである。   Furthermore, information on whether or not a word is in a predetermined dictionary may be used as an attribute, such as information on whether or not it belongs to a word group described in the dictionary. For example, whether a certain word belongs to a predetermined word group that contributes to “development of the heart” regarded as important in developmental psychology or the like may be used as an attribute of the word. Words that contribute to mental development are words that relate to the emotions of children.

この場合、幼児のこころの発達に寄与する単語が載っている辞書やリストを用意し、ある単語が、辞書やリストに記載されている単語、例えば、「思う」「考える」といった単語群に属するか否かの情報を属性とする。   In this case, a dictionary or list containing words that contribute to the development of the infant's heart is prepared, and a certain word belongs to a word group described in the dictionary or list, for example, “think” or “think”. Whether or not the information is an attribute.

こころの発達に寄与する単語については、参考文献3,4を参照のこと。例えば、この参考文献3,4に載っている幼児のこころの発達に寄与する単語のリストを用いることができる。
〔参考文献3〕Simon Baron-Cohen, Ofer Golan, Sally Wheelwright, Yael Granader, and Jacqueline Hill1, "Emotion Word Comprehension from 4 to 16 Years Old: A Developmental Survey", Frontiers in Evolutionary Neuroscience 2(109):109 November 2010
〔参考文献4〕渡辺 弥生, 藤野 沙織, "児童の感情リテラシーの発達−感情表現に焦点を当てて−", Bulletin of Faculty of Letters, Hosei University (73), 83-97, 2016
See references 3 and 4 for words that contribute to mental development. For example, it is possible to use a list of words that contribute to the mental development of the infant described in References 3 and 4.
[Reference 3] Simon Baron-Cohen, Ofer Golan, Sally Wheelwright, Yael Granader, and Jacqueline Hill1, "Emotion Word Comprehension from 4 to 16 Years Old: A Developmental Survey", Frontiers in Evolutionary Neuroscience 2 (109): 109 November 2010
[Reference 4] Yayoi Watanabe, Saori Fujino, "Development of emotional literacy in children: focusing on emotional expression", Bulletin of Faculty of Letters, Hosei University (73), 83-97, 2016

このように、単語の属性の割り当てに、上記日本語評価極性辞書等の評価辞書や、上記発達心理学等で重要視される「こころの発達」に寄与する所定の単語群等のある業界の人が評判解析に用いる単語群等の既存の単語セットを用いてもよい。   In this way, in the assignment of word attributes, there are industry dictionaries such as evaluation dictionaries such as the above-mentioned Japanese evaluation polarity dictionary and predetermined word groups that contribute to “development of the heart” that is regarded as important in the developmental psychology and the like. An existing word set such as a word group used by a person for reputation analysis may be used.

また、各単語が、異なる少なくとも1つのグループの何れかに属するように、グループ分けされている場合には、各単語が属するグループを属性として用いることができる。各単語のグループ分けは、例えば参考文献5に記載されたトピックモデルを用いたトピック抽出の手法を用いることにより行うことができる。
〔参考文献5〕David M. Blei, Andrew Y. Ng, Michael I. Jordan, "Latent Dirichlet Allocation", JMLR2003
In addition, when the words are grouped so as to belong to any one of at least one different group, the group to which each word belongs can be used as an attribute. The grouping of each word can be performed by using a topic extraction method using a topic model described in Reference 5, for example.
[Reference 5] David M. Blei, Andrew Y. Ng, Michael I. Jordan, "Latent Dirichlet Allocation", JMLR2003

トピックモデルを用いたトピック抽出では、所定のトピック数及び特定の文書集合を入力とすることにより、入力した特定の文書集合に含まれる単語を、所定のトピック数のトピック(=グループ)に分けることができる。例えば、このトピックモデルを用いたトピック抽出により得られたトピックへの所属の有無を属性とすることで、入力した特定の文書集合に適した単語の属性を与えることができる。トピックモデルを用いたトピック抽出、及び、このトピック抽出により得られた属性を用いた単語の属性の割り当ては、図1に破線で示した属性割当部8により例えば行われる。類似性計算装置20及び類似文書検索装置は、属性割当部8を更に備えていてもよい。   In topic extraction using a topic model, by inputting a predetermined number of topics and a specific document set, words included in the input specific document set are divided into topics (= groups) having a predetermined number of topics. Can do. For example, by using as an attribute whether or not the subject belongs to a topic obtained by topic extraction using the topic model, an attribute of a word suitable for the input specific document set can be given. The topic extraction using the topic model and the assignment of the word attribute using the attribute obtained by the topic extraction are performed, for example, by the attribute assignment unit 8 indicated by a broken line in FIG. The similarity calculation device 20 and the similar document search device may further include an attribute assignment unit 8.

このように、既存の単語セットを用いずに、特定の文書集合に適した単語の属性の割り当てを行ってもよい。   In this way, assignment of word attributes suitable for a specific document set may be performed without using an existing word set.

例えば、特定の文書集合として、検索対象とする文書集合を用いてもよい。すなわち、検索対象とする文書に含まれる一部又は全部の単語について、各単語が異なる少なくとも1つのグループに属するように所定のグループ化手法によりグループ分けして、単語が属するグループ、又は、単語が何れのグループにも属さないという属性をその単語に対応する属性としてもよい。これにより、検索対象とする文書集合に適した単語の属性の割り当てを行うことができる。   For example, a document set to be searched may be used as a specific document set. That is, some or all of the words included in the document to be searched are grouped by a predetermined grouping method so that each word belongs to at least one different group, and the group to which the word belongs or An attribute that does not belong to any group may be an attribute corresponding to the word. Thereby, it is possible to assign word attributes suitable for the document set to be searched.

以下、特定の文書集合を用いて、各単語が異なる少なくとも1つのグループの何れかに属するようにグループ分けするトピックモデルを用いた手法以外の方法である<方法1><方法2>について説明する。   Hereinafter, <Method 1> <Method 2>, which is a method other than a method using a topic model for grouping so that each word belongs to any one of at least one different group using a specific document set, will be described. .

<方法1>
方法1は、word2vecとクラスタリングを用いるものである。
<Method 1>
Method 1 uses word2vec and clustering.

まず、属性割当部8は、特定の文書集合を入力として、文書中に登場する単語をword2vecを利用してユークリッド空間に埋め込む(ステップG11)。特定の文書集合の例は、検索対象とする文書集合である。word2vecを利用したユークリッド空間への単語の埋め込みの詳細については、例えば、参考文献6参照を参照のこと。
〔参考文献6〕Suzuki Jun, Nagata Masaaki, “Right-truncatable Neural Word Embeddings”, Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp.1145--1151,
First, the attribute assignment unit 8 uses a specific document set as an input, and embeds words appearing in the document into the Euclidean space using word2vec (step G11). An example of a specific document set is a document set to be searched. For details on embedding words in the Euclidean space using word2vec, see, for example, Reference 6.
[Reference 6] Suzuki Jun, Nagata Masaaki, “Right-truncatable Neural Word Embeddings”, Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp.1145--1151,

そして、属性割当部8は、ユークリッド空間に埋め込まれた単語群を、クラスタリングによってk個のクラスタ(単語集合あるいは単語のグループ)に分割する(ステップG12)。kは予め定められた正の整数である。クラスタリングには、k-means法、random forest等の既存の方法を用いればよい。<方法1>の場合、クラスタリングにより得られた各グループのいずれかひとつ、あるいは複数への所属の有無を属性とすればよい。   Then, the attribute assignment unit 8 divides the word group embedded in the Euclidean space into k clusters (a word set or a word group) by clustering (step G12). k is a predetermined positive integer. For clustering, an existing method such as a k-means method or a random forest may be used. In the case of <Method 1>, the presence or absence of belonging to any one or a plurality of groups obtained by clustering may be used as an attribute.

<方法2>
方法2は、いわゆるbag of wordsとクラスタリングを用いるものである。文書をいくつかの重要な言葉(word)が入った袋(bag)として表現するので、以下に説明するベクトルの作り方はbag of wordsと呼ばれる。
<Method 2>
Method 2 uses so-called bag of words and clustering. Since a document is represented as a bag containing several important words, the vector construction described below is called a bag of words.

まず、属性割当部8は、文書に登場する自立語を特定の文書集合に含まれるC冊の文書1,…,Cのすべてについて調べて、文書に出現する自立語辞書を作成する(ステップG21)。特定の文書集合の例は、検索対象とする文書集合である。   First, the attribute assigning unit 8 examines all the C documents 1,..., C included in a specific document set for independent words appearing in the document, and creates an independent word dictionary appearing in the document (step G21). ). An example of a specific document set is a document set to be searched.

作成された辞書に掲載された自立語の種類がV個あったとする。すなわち、文書1,…,Cに出現する自立語は1,…,Vであったとする。属性割当部8は、V個の自立語について、それぞれが登場する文書の冊数をカウントする(ステップG22)。すなわち、自立語「オオカミ」は20冊の文書に登場する、自立語「××」は…冊の文書に登場する等の各単語についてのいわゆるdf(document frequency)を調べる。   Suppose that there are V types of free-standing words in the created dictionary. That is, it is assumed that the independent words appearing in the documents 1,..., C are 1,. The attribute assigning unit 8 counts the number of books of the document in which each of the V independent words appears (step G22). That is, the so-called df (document frequency) is examined for each word such that the independent word “wolf” appears in 20 documents, the independent word “xx” appears in the book document, and so on.

属性割当部8は、ある閾値Dを決めて、dfが上位D位以上の自立語を洗い出す(ステップG23)。Dは、予め定められた正の整数である。dfがD未満の自立語を切り捨てることで、計算コストを削減することができる。   The attribute assigning unit 8 determines a certain threshold value D and identifies independent words whose df is higher than the upper D rank (step G23). D is a predetermined positive integer. By truncating free words whose df is less than D, the calculation cost can be reduced.

v=1,…,Vとし、Dを予め定められた正の整数として、ステップG22及びステップG23の処理により得られる、上記検索対象とする文書集合の中の自立語vが出現する文書の数df(v)が大きい方からD個の自立語を1,…,Dとする。   v = 1,..., V, and D is a positive integer determined in advance, and the number of documents in which the independent word v appears in the set of documents to be searched, obtained by the processing of step G22 and step G23. Let D, 1, ..., D be the independent words from the largest df (v).

属性割当部8は、ステップG23で求まったD位以上の自立語D種が、それぞれの文書に何種類出現したか調べる(ステップG24)。すなわち、属性割当部8は、例えば、文書「あかずきん」には、df 1位の自立語「おおかみ」、df D位の自立語「××」の2種類が現れるということを調べる。   The attribute assigning unit 8 examines how many kinds of D words or more of independent words D obtained in step G23 appear in each document (step G24). That is, for example, the attribute assignment unit 8 checks that two types of independent words “Okami” at the df position and independent words “xx” at the df position appear in the document “Akazuki”.

なお、このとき、属性割当部8は、登場する自立語の種類の数が少ない下位の文書を切り捨てることで、これ以降の計算量を削減してもよい。すなわち、文書の数が少なければ切り捨てはしなくてもよい。   At this time, the attribute assigning unit 8 may reduce the amount of calculation thereafter by truncating lower-level documents with a small number of types of independent words appearing. That is, if the number of documents is small, it is not necessary to truncate.

c=1,…,Cとし、Nを予め定められた正の整数として、ステップG24の処理に得られる、検索対象とする文書集合に含まれる文書cに出現するD個の自立語の中の自立語の数M(c)が大きい方からN個の文書を1,…,Nとする。N<Cである場合は、登場する自立語の種類の数が少ない下位N-C個の文書を切り捨てることに対応している。N=Cである場合は、切り捨てを行わないことに対応している。   c = 1,..., C, and N is a positive integer determined in advance. Among the D independent words appearing in the document c included in the document set to be searched, obtained in the process of step G24 N documents from the one with the largest number of independent words M (c) are 1,. If N <C, this corresponds to truncating the lower N-C documents with a small number of independent word types. When N = C, this corresponds to not performing truncation.

ステップG24の処理により、自立語と文書それぞれが選抜されたものが残っている。残った自立語と文書のそれぞれを自立語集合V'={1,…,D}と文書集合E’={1,…,N}とし、それぞれ自立語集合V'については多くの文書に現れる順、文書集合E’については多くの自立語を含む順に並んでいるとする。   As a result of the processing in step G24, there remains a selection of independent words and documents. Remaining independent words and documents are set as independent word set V '= {1, ..., D} and document set E' = {1, ..., N}, and each independent word set V 'appears in many documents. In order, the document set E ′ is arranged in the order including many independent words.

このとき、属性割当部8は、ある自立語が文書集合E'中の文書にそれぞれ何回現れるかをその自立語の特徴ベクトルとする(ステップG25)。例えば、自立語「オオカミ」は、文書 1位の「あかずきん」に15回、文書 2位の「おおかみと7ひきのこやぎ」に10回、…、文書 |E'|位の「ごんぎつね」に0回現れたとすると、自立語「オオカミ」の特徴ベクトルは|E'|次元のベクトル(15,10,…,0)になる。ここで、|E'|は、文書集合E'に含まれる文書の数(ここでは、N)とする。   At this time, the attribute assigning unit 8 determines how many times each independent word appears in the documents in the document set E ′ as a feature vector of the independent word (step G25). For example, the self-supporting word “Wolf” is 15 times for “Akazukin” in the first place in the document, 10 times in “Okami and 7 Hiki-no-kogagi” in the second place in the document,…. If it appears once, the feature vector of the self-supporting word “wolf” becomes an | E ′ | -dimensional vector (15, 10,..., 0). Here, | E ′ | is the number of documents included in the document set E ′ (N in this case).

d=1,…,Dとし、n=1,…,Nとし、自立語dが文書nに出現する回数をO(n,d)として、ステップG25の処理により得られる、自立語dに対応するベクトルは(O(1,d),…,O(N,d))となる。   d = 1,..., D, n = 1,..., N, and the number of times the independent word d appears in the document n is O (n, d), corresponding to the independent word d obtained by the process of step G25. The vector to be performed is (O (1, d),..., O (N, d)).

ステップG21からステップG25の処理により、各自立語が|E'|次元の特徴空間に配置される。属性割当部8は、|E'|次元の特徴空間に配置された自立語をk個のクラスタ(単語集合あるいは単語のグループ)に分割する(ステップG26)。すなわち、対応するベクトルに基づいて自立語1,…,Dをクラスタリングすることにより各自立語1,…,Dをグループ分けする。   By the processing from step G21 to step G25, each independent word is arranged in the | E '| dimension feature space. The attribute assigning unit 8 divides the independent words arranged in the | E ′ | -dimensional feature space into k clusters (a word set or a word group) (step G26). That is, the independent words 1,..., D are clustered by clustering the independent words 1,.

kは予め定められた正の整数である。クラスタリングの方法、及び、クラスタリング後の各グループの属性としての扱い方は、<方法1>のステップG12で説明したものと同様である。   k is a predetermined positive integer. The clustering method and how to treat each group as an attribute after clustering are the same as those described in step G12 of <Method 1>.

なお、1つの単語に対して、複数の属性が割り当てられていてもよい。   A plurality of attributes may be assigned to one word.

<属性頻度系列情報生成部3>
属性頻度系列情報生成部3には、単語抽出部1で抽出された単語が入力される。
<Attribute Frequency Series Information Generation Unit 3>
The attribute frequency series information generation unit 3 receives the words extracted by the word extraction unit 1.

属性頻度系列情報生成部3は、単語抽出部1で抽出された単語に対応する属性を単語属性記憶部2から読み込み、各文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度をカウントすることにより、各文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度の系列を表す情報である属性頻度系列情報を求める(ステップS3)。属性頻度系列情報生成部3の出力する各文書の属性頻度系列情報は、各文書を識別する情報とセグメントを識別する情報と対応付けられて、属性頻度系列情報記憶部4に記憶される。   The attribute frequency series information generation unit 3 reads the attribute corresponding to the word extracted by the word extraction unit 1 from the word attribute storage unit 2, and sets the attribute corresponding to the word included in each of the plurality of segments constituting each document. By counting the frequency, attribute frequency series information which is information representing a series of attribute frequencies corresponding to words included in each of a plurality of segments constituting each document is obtained (step S3). The attribute frequency series information of each document output by the attribute frequency series information generation unit 3 is stored in the attribute frequency series information storage unit 4 in association with information for identifying each document and information for identifying a segment.

所定の単位が1ページである場合には、属性頻度系列情報生成部3は、各ページに含まれる単語に対応する属性の頻度をカウントする。   When the predetermined unit is one page, the attribute frequency series information generation unit 3 counts the frequency of the attribute corresponding to the word included in each page.

例えば、属性は「positive」と「negative」の2種類であり、単語属性記憶部2に記憶されていない単語に属性を割り当てないとする。そして、ページ1には「戦争がはじまった。肉食獣は殺された。」が記載されているとすると、単語抽出部1で抽出され属性頻度系列情報生成部3に入力される単語は、「戦争」「はじまる」「肉食獣」「殺す」となる。   For example, assume that there are two types of attributes, “positive” and “negative”, and no attribute is assigned to a word that is not stored in the word attribute storage unit 2. Then, assuming that “War has started. Carnivores have been killed” is described on page 1, the word extracted by the word extraction unit 1 and input to the attribute frequency series information generation unit 3 is “ “War” “Beginning” “Carnivorous beast” “Kill”.

単語属性記憶部2で「戦争」という単語に「negative」という属性が付与されている場合、属性頻度系列情報生成部3は、「negative」という属性の頻度としてカウントする。具体的には、初期値が“0”の「negative」という属性の頻度を“1”だけ加算する。「はじまる」「肉食獣」「殺す」という単語の属性は単語属性記憶部2に記憶されていない場合、「positive」及び「negative」のいずれの属性の頻度としてもカウントしない。このカウントの処理により、ページ1に含まれる単語に対応する属性の頻度は「positive」:0,「negative」:1となる。   When the word attribute storage unit 2 assigns the attribute “negative” to the word “war”, the attribute frequency series information generation unit 3 counts the frequency of the attribute “negative”. Specifically, the frequency of the attribute “negative” having an initial value “0” is added by “1”. If the word attributes “start”, “carnivorous”, and “kill” are not stored in the word attribute storage unit 2, they are not counted as the frequency of any of the “positive” and “negative” attributes. By this counting process, the frequencies of the attributes corresponding to the words included in page 1 are “positive”: 0 and “negative”: 1.

同様の処理を、ページ2、ページ3、…に対して行う。例えば、ページ2に含まれる単語に対応する属性の頻度は「positive」:1,「negative」:1、ページ3に含まれる単語に対応する属性の頻度は「positive」:0,「negative」:1、というように、ページごとに各ページに含まれる単語に対応する属性の頻度をカウントする。   The same processing is performed for page 2, page 3,. For example, the frequency of the attribute corresponding to the word included in page 2 is “positive”: 1, “negative”: 1, and the frequency of the attribute corresponding to the word included in page 3 is “positive”: 0, “negative”: For example, the frequency of attributes corresponding to words included in each page is counted for each page.

なお、属性頻度系列情報生成部3は、単語抽出部1でページ2から抽出された「楽しむ(打消し)」のように補正の必要性を示す付随情報のついた単語については、単語属性記憶部2を参照することによりみつけた評価極性を反転した評価極性を持つ単語の出現として計数してもよい。例えば、単語属性記憶部2において「楽しむ」という単語に対応する属性として「positive」という極性が割り当てられている場合には、属性頻度系列情報生成部3は、「楽しむ(打消し)」の属性は、「positive」という極性を反転した「negative」であるとして頻度を計数してもよい。または、属性頻度系列情報生成部3は、単語の正負の評価極性が打ち消し表現によって失われたとみなして、いずれの評価極性の計数もしないとしてもよい。   Note that the attribute frequency series information generation unit 3 stores a word attribute storage for words with accompanying information indicating the necessity of correction, such as “enjoy (cancel)” extracted from the page 2 by the word extraction unit 1. You may count as the appearance of the word with the evaluation polarity which reversed the evaluation polarity found by referring to the part 2. For example, when the polarity “positive” is assigned as the attribute corresponding to the word “enjoy” in the word attribute storage unit 2, the attribute frequency series information generation unit 3 selects the attribute “enjoy (cancel)”. May count the frequency as “negative” with the polarity “positive” reversed. Alternatively, the attribute frequency series information generation unit 3 may regard the positive / negative evaluation polarity of the word as lost due to the cancellation expression, and may not count any evaluation polarity.

このように、ページごとにカウントされた各ページに含まれる単語に対応する属性の頻度が、属性頻度系列情報の一例である。   Thus, the frequency of the attribute corresponding to the word included in each page counted for each page is an example of attribute frequency series information.

なお、ある文書は、S個のセグメント1,…,Sで構成されているとし、単語に対応する属性はA個の属性1,…,Aであるとし、s=1,…,S,として、a=1,…,Aとし、セグメントsに含まれる単語tの頻度を表す指標をHs(t)とし、セグメントsに含まれる対応する属性がaである単語ts(a)の集合を{ts(a)}とし、セグメントsにおける属性aの頻度Fs(a)はFs(a)=Σts(a)∈{ts(a)}Hs(ts(a))であるとして、上記ある文書の属性頻度系列情報は、((F1(1),…,F1(A)),…,(FS(1),…,FS(A))を表す情報であってもよい。   Note that a document is composed of S segments 1,..., S, and the attributes corresponding to words are A attributes 1,..., A, and s = 1,. , A = 1,..., A, an index representing the frequency of the word t included in the segment s is Hs (t), and a set of words ts (a) whose corresponding attribute is included in the segment s is { ts (a)}, and the frequency Fs (a) of attribute a in segment s is Fs (a) = Σts (a) ∈ {ts (a)} Hs (ts (a)). The attribute frequency series information may be information representing ((F1 (1), ..., F1 (A)), ..., (FS (1), ..., FS (A)).

ここで、セグメントsに含まれる単語tの頻度を表す指標Hs(t)は、上記ある文書の中の単語tが含まれるセグメントの個数が多いほど小さな値を取ってもよい。具体的には、セグメントsに含まれる単語tの頻度をHs(t)'とし、上記ある文書の中の単語tが含まれるセグメントの個数をf(t)として、Hs(t)=Hs(t)'×log(S/f(t))としてもよい。ここで、対数の底は、e、10等の所定の1以外の正の実数である。   Here, the index Hs (t) indicating the frequency of the word t included in the segment s may take a smaller value as the number of segments including the word t in the document increases. Specifically, the frequency of the word t included in the segment s is Hs (t) ′, and the number of segments including the word t in the document is f (t), and Hs (t) = Hs ( t) ′ × log (S / f (t)). Here, the base of the logarithm is a positive real number other than a predetermined one such as e or 10.

例えば、1個目のセグメント1であるページ1から、「おおかみ」「あらし」「よる」「おおかみ」「羊」「おおかみ」という単語が抽出され、属性頻度系列情報生成部3に入力されたとする。また、単語に対応する属性は、「positive」及び「negative」の2種類であるとする。   For example, it is assumed that the words “Owami”, “Silver”, “Wolf”, “Owami”, “Sheep”, and “Owami” are extracted from the first segment 1 and input to the attribute frequency series information generation unit 3. . In addition, it is assumed that there are two types of attributes corresponding to words, “positive” and “negative”.

この場合、属性頻度系列情報生成部3は、ページ1に含まれる「おおかみ」という単語の頻度をカウントし、その頻度を“3”とする(ステップS31)。   In this case, the attribute frequency series information generation unit 3 counts the frequency of the word “Okami” included in page 1 and sets the frequency to “3” (step S31).

次に、属性頻度系列情報生成部3は、「おおかみ」という単語の属性を、単語属性記憶部2から読み込む(ステップS32)。単語属性記憶部2で「おおかみ」という単語に「negative」という属性が付与されている場合、属性頻度系列情報生成部3は、「おおかみ」という単語の属性を「negative」とする。   Next, the attribute frequency series information generation unit 3 reads the attribute of the word “Okami” from the word attribute storage unit 2 (step S32). When the attribute “negative” is given to the word “Okami” in the word attribute storage unit 2, the attribute frequency series information generation unit 3 sets the attribute of the word “Okami” to “negative”.

この例では、ページ1以外の他のページにも「おおかみ」という単語が多く含まれているとする。この場合、「おおかみ」という単語が多く含まれていることに起因して、「negative」の数が多くなってしまい、正確なストーリー展開の抽出ができなくなる可能性がある。そこで、この例では、属性頻度系列情報生成部3は、複数セグメントにわたって登場する単語の影響を低減する重みを考慮することにする。重みの例は、「おおかみ」という単語が含まれるセグメントの個数をf(おおかみ)として、log(S/f(おおかみ))である。この重みは、文書の特徴付けを行う際に用いられるTF-IDF(Term Frequency-Inverse Document Frequency)を応用したものであり、TF-IPF(Term Frequency-Inverse Page Frequency)とも言える。もちろん、重みとして、TF-IPF以外の、ある文書の中の単語tが含まれるセグメントの個数が多いほど小さな値を取る重みを用いてもよい。   In this example, it is assumed that many pages other than page 1 include many words “Okami”. In this case, the number of “negative” increases due to the fact that many words “Okami” are included, and there is a possibility that accurate story development cannot be extracted. Therefore, in this example, the attribute frequency series information generation unit 3 considers weights that reduce the influence of words appearing over a plurality of segments. An example of the weight is log (S / f (Okami)), where f is the number of segments including the word “Okami”. This weight is an application of TF-IDF (Term Frequency-Inverse Document Frequency) used when characterizing a document, and can also be called TF-IPF (Term Frequency-Inverse Page Frequency). Of course, as the weight, a weight that takes a smaller value as the number of segments including the word t in a certain document other than TF-IPF may be used.

属性頻度系列情報生成部3は、ページ1に含まれる「おおかみ」という単語の頻度である“3”に上記の“log(S/f(おおかみ))”をかけた値“3×log(S/f(おおかみ))”を、ページ1に含まれる単語「おおかみ」の頻度を表す指標“H1(おおかみ)”とする(ステップS33)。なお、H1(おおかみ)における「おおかみ」は、H1という単語を引数とする関数の入力が単語「おおかみ」であることを表す。   The attribute frequency series information generation unit 3 multiplies “3”, which is the frequency of the word “Okami” included in page 1, by the above “log (S / f (Okami))” “3 × log (S / f (Okami)) ”is set as an index“ H1 (Okami) ”indicating the frequency of the word“ Okami ”included in page 1 (step S33). In addition, “Okami” in H1 (Okami) represents that the input of the function having the word H1 as an argument is the word “Okami”.

このように、セグメントsに含まれる単語tの頻度を表す指標Hs(t)は、例えば、セグメントsに含まれる単語tの頻度をTF-IPF等の重みにより補正した値である。なお、Hs(t)は、セグメントsに含まれる単語tの頻度自体であってもよい。   As described above, the index Hs (t) indicating the frequency of the word t included in the segment s is, for example, a value obtained by correcting the frequency of the word t included in the segment s with a weight such as TF-IPF. Hs (t) may be the frequency of the word t included in the segment s.

属性頻度系列情報生成部3は、「おおかみ」という単語の属性を「negative」であるため、言い換えれば、「おおかみ」という単語はページ1に含まれる対応する属性が「negative」である単語t1(positive)の集合{t1(positive)}に含まれるため、ページ1の「negative」の頻度を表す変数F1(negative)にH1(おおかみ)を加算する(ステップS34)。   Since the attribute frequency series information generation unit 3 has “negative” as the attribute of the word “Okami”, in other words, the word “Okami” includes the word t1 () corresponding attribute included in page 1 is “negative”. Since it is included in the set of positive) {t1 (positive)}, H1 is added to the variable F1 (negative) representing the frequency of “negative” on page 1 (step S34).

属性頻度系列情報生成部3は、ステップS31からステップS34の処理をページ1の各単語について行うことにより、ページ1における「negative」という属性の頻度F1(negative)=Σt1(negative)∈{t1(negative)}H1(t1(negative))と、ページ1における「positive」という属性の頻度F1(positive)=Σt1(positive)∈{t1(positive)}H1(t1(positive))とを求める(ステップS35)。(F1(positive),F1(negative))が、ページ1の属性頻度系列情報の例である。   The attribute frequency series information generation unit 3 performs the processing from step S31 to step S34 on each word of page 1, thereby causing the frequency of attribute “negative” in page 1 to be F1 (negative) = Σt1 (negative) ∈ {t1 ( negative)} H1 (t1 (negative)) and frequency F1 (positive) = Σt1 (positive) ∈ {t1 (positive)} H1 (t1 (positive)) of the attribute “positive” in page 1 (step) S35). (F1 (positive), F1 (negative)) is an example of page 1 attribute frequency series information.

属性頻度系列情報生成部3は、ステップS31からステップS35の処理を各ページについて行うことにより、各ページの属性頻度系列情報((F1(positive),F1(negative)),…,(FS(positive),FS(negative))を求める(ステップS36)。例えば、このようにして求まる((F1(positive),F1(negative)),…,(FS(positive),FS(negative))を表す情報が、属性頻度系列情報の一例である。   The attribute frequency series information generation unit 3 performs the processing from step S31 to step S35 on each page, thereby obtaining attribute frequency series information ((F1 (positive), F1 (negative)),..., (FS (positive) ), FS (negative)) (step S36), for example, information representing ((F1 (positive), F1 (negative)), ..., (FS (positive), FS (negative)) obtained in this way. Is an example of attribute frequency series information.

このように、属性頻度系列情報は、文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度の系列を表すヒストグラムであってもよい。なお、以下に述べるように、属性頻度系列情報は、そのヒストグラムの近似曲線であってもよい。   As described above, the attribute frequency series information may be a histogram representing a series of attribute frequencies corresponding to words included in each of a plurality of segments constituting the document. As described below, the attribute frequency series information may be an approximate curve of the histogram.

なお、各文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度を表す指標の系列を重み付き加算した系列を属性頻度系列情報としてもよい。例えば、セグメントs(s=1,…,S)のある属性a(i=1,…,A)の頻度を表す指標をHiaとし、属性aの重みをαaとし、Hs=Σi=1AαiHisとした場合、H1,…,HSが属性頻度系列情報となる。   Note that a series obtained by weighting and adding a series of indices indicating the frequency of attributes corresponding to words included in each of a plurality of segments constituting each document may be used as the attribute frequency series information. For example, an index indicating the frequency of an attribute a (i = 1,..., A) having a segment s (s = 1,..., S) is Hia, the weight of the attribute a is αa, and Hs = Σi = 1AαiHis. In this case, H1,..., HS are attribute frequency series information.

例えば、属性が「positive」「negative」である場合には、属性「positive」の重みを“1”とし、属性「negative」の重みを“−1”とする。   For example, when the attribute is “positive” or “negative”, the weight of the attribute “positive” is “1”, and the weight of the attribute “negative” is “−1”.

また、属性の頻度の系列の重み付き加算により生成された属性頻度系列情報H1,…,HSの近似曲線を属性頻度系列情報とすることにより、文書の属性頻度系列情報を一本の曲線で表してもよい。属性頻度系列情報生成部3は、属性頻度系列情報H1,…,HSを例えばスプライン補間することにより、近似曲線を得ることができる。文書の属性頻度系列情報を一本の曲線で表すことにより、ストーリー展開をわかりやすく表現することができる。   Further, the attribute frequency series information of the document is represented by a single curve by using the approximate curve of the attribute frequency series information H1, ..., HS generated by weighted addition of the attribute frequency series as the attribute frequency series information. May be. The attribute frequency series information generation unit 3 can obtain an approximate curve by, for example, performing spline interpolation on the attribute frequency series information H1,. By expressing the attribute frequency series information of a document with a single curve, the story development can be expressed in an easy-to-understand manner.

図3及び図4に、属性頻度系列情報の他の例を示す。図3及び図4は、ページごとの「positive」「negative」に含まれる単語に対応する頻度の系列の近似曲線を表したものである。属性頻度系列情報生成部3は、「positive」及び「negative」のそれぞれに含まれる単語に対応する頻度の系列を例えばスプライン補間することにより、近似曲線を得ることができる。このように、属性頻度系列情報は、属性の頻度の系列を表すヒストグラムの近似曲線であってもよい。図3及び図4において、横軸はページ番号であり、縦軸は頻度であり、実線は「positive」の属性に属する単語の出現頻度を表し、破線は「negative」の属性に属する単語の出現頻度を表す。   3 and 4 show other examples of attribute frequency series information. FIG. 3 and FIG. 4 show approximate curves of frequency series corresponding to words included in “positive” and “negative” for each page. The attribute frequency series information generation unit 3 can obtain an approximate curve by, for example, performing spline interpolation on the frequency series corresponding to the words included in each of “positive” and “negative”. As described above, the attribute frequency series information may be an approximate curve of a histogram representing a series of attribute frequencies. 3 and 4, the horizontal axis represents the page number, the vertical axis represents the frequency, the solid line represents the appearance frequency of the word belonging to the “positive” attribute, and the broken line represents the appearance of the word belonging to the “negative” attribute. Represents the frequency.

図3は、典型的な「ハッピーエンド」のストーリー展開を有する文書の属性頻度系列情報の例である。図3では、「negative」が「positive」を上回る部分が途中にあるが、最終的に「positive」が「negative」を上回るので、「ハッピーエンド」のストーリー展開が表されていると言える。   FIG. 3 is an example of attribute frequency series information of a document having a typical “Happy End” story development. In FIG. 3, there is a portion where “negative” exceeds “positive”, but since “positive” finally exceeds “negative”, it can be said that the story development of “Happy End” is represented.

図4は、典型的な「悲しいお話」のストーリー展開にを有する文書の属性頻度系列情報の例である。図4では、「positive」が「negative」を上回る部分もあるが、ほとんどの部分で「negative」が「positive」を上回っており、「negative」が「positive」を上回ったまま終わっているため、「悲しいお話」のストーリー展開が表されていると言える。   FIG. 4 is an example of attribute frequency series information of a document having a typical “sad story” story development. In FIG. 4, there is a part where “positive” exceeds “negative”, but “negative” exceeds “positive” in most parts, and “negative” exceeds “positive”. It can be said that the story development of "sad story" is expressed.

このように、ある文書の属性頻度系列情報は、その文書のストーリー展開を表す。このため、後述する類似性計算部5及び類似文書情報出力部6の処理で属性頻度系列情報が類似している文書を探すことにより、ストーリー展開が似た文書の検索が可能となるのである。   Thus, the attribute frequency series information of a certain document represents the story development of that document. For this reason, it is possible to search for a document with similar story development by searching for a document with similar attribute frequency series information in the processing of the similarity calculation unit 5 and the similar document information output unit 6 described later.

属性頻度系列情報生成部3は、例えば上記の処理により得られた属性頻度系列情報にローパスフィルタをかける等の手法により平滑化してもよい。例えば、比較的低年齢に向けて書かれており、見開きの2ページを1つの単位としてデザインされている絵本について、見開きの2ページを所定の単位として属性頻度系列情報の生成を行ったとき、見開き2ページの左のページにテキストが記載されており、見開き2ページの右のページに絵のみが記載されている等の場合に、属性頻度系列情報の凹凸が極端となる可能性がある。このような場合に、属性頻度系列情報を平滑化することにより、属性頻度系列情報の凹凸を平坦にすることができる。これにより、類似文書の検索の精度を高めることができる。   For example, the attribute frequency series information generation unit 3 may smooth the attribute frequency series information obtained by the above processing by applying a low-pass filter. For example, when generating the attribute frequency series information for a picture book that is written for a relatively young age and designed with two pages of spread as one unit, When the text is described on the left page of the two spread pages and only the picture is described on the right page of the two spread pages, the unevenness of the attribute frequency series information may be extreme. In such a case, the unevenness of the attribute frequency series information can be flattened by smoothing the attribute frequency series information. Thereby, the precision of the search of a similar document can be improved.

属性頻度系列情報生成部3は、処理対象の全ての文書について属性頻度系列情報を生成したかどうかを判断し、まだ属性頻度系列情報を生成していない文書がある場合には、その文書についてステップS1及びステップS3の処理を行う。すなわち、処理対象の全ての文書について属性頻度系列情報が生成されるまで、ステップS1及びステップS3の処理が繰り返し行われる。   The attribute frequency series information generation unit 3 determines whether or not attribute frequency series information has been generated for all documents to be processed. If there is a document for which attribute frequency series information has not yet been generated, The process of S1 and step S3 is performed. That is, the processing of step S1 and step S3 is repeatedly performed until the attribute frequency series information is generated for all the documents to be processed.

<属性頻度系列情報記憶部4>
属性頻度系列情報記憶部4には、属性頻度系列情報生成部3で生成された属性頻度系列情報が、文書の識別番号(ID等)と対応づけられて記憶される。
<Attribute Frequency Series Information Storage Unit 4>
The attribute frequency series information storage unit 4 stores the attribute frequency series information generated by the attribute frequency series information generation unit 3 in association with the document identification number (ID or the like).

なお、後述するように、属性頻度系列情報生成部3で生成された属性頻度系列情報が、文書の識別番号(ID等)と、所定の単位と対応づけられて記憶されていてもよい。   As will be described later, the attribute frequency series information generated by the attribute frequency series information generation unit 3 may be stored in association with a document identification number (ID or the like) and a predetermined unit.

なお、単語抽出部1及び属性頻度系列情報生成部3の処理は、言い換えれば各文書の属性頻度系列情報を属性頻度系列情報記憶部4に記憶させる処理は、類似性計算部5、類似文書情報出力部6及び表示部7の処理に先だって行われる。検索対象とする文書集合を変更しない限り、各文書の属性頻度系列情報を属性頻度系列情報記憶部4に記憶させる処理はやり直す必要はない。   The processing of the word extraction unit 1 and the attribute frequency series information generation unit 3 is, in other words, the processing of storing the attribute frequency series information of each document in the attribute frequency series information storage unit 4 is similar to the similarity calculation unit 5 and the similar document information. This is performed prior to the processing of the output unit 6 and the display unit 7. Unless the document set to be searched is changed, it is not necessary to redo the process of storing the attribute frequency series information of each document in the attribute frequency series information storage unit 4.

<類似性計算部5>
類似性計算部5には、表示部7を通じてユーザにより選択又は描写された検索のクエリとなる文書の属性頻度系列情報が入力される。表示部7を通じた、ユーザによるクエリとなる文書の属性頻度系列情報の入力については後述する。
<Similarity calculation unit 5>
The similarity calculation unit 5 receives attribute frequency series information of a document that is a search query selected or depicted by the user through the display unit 7. The input of the attribute frequency series information of the document to be a query by the user through the display unit 7 will be described later.

ユーザにより、検索のクエリとなる文書の属性頻度系列情報が描写された場合には、そのユーザにより描写された、検索のクエリとなる文書の属性頻度系列情報がそのまま類似性計算部5に入力される。   When the attribute frequency series information of the document serving as the search query is depicted by the user, the attribute frequency series information of the document serving as the search query depicted by the user is directly input to the similarity calculation unit 5. The

ユーザにより、検索のクエリとなる文書が選択された場合には、類似性計算部5は、ユーザにより選択された文書の属性頻度系列情報が、属性頻度系列情報記憶部4に記憶されているか否かを判断する。ユーザにより選択された文書の属性頻度系列情報が属性頻度系列情報記憶部4に記憶されている場合には、類似性計算部5は、ユーザにより選択された文書の属性頻度系列情報を属性頻度系列情報記憶部4から読み込む。ユーザにより選択された文書の属性頻度系列情報が属性頻度系列情報記憶部4に記憶されていない場合には、ユーザにより選択された文書について、単語抽出部1及び属性頻度系列情報生成部3によるステップS1及びステップS3の処理が行われ、この処理により得られたユーザにより選択された文書の属性頻度系列情報が類似性計算部5に入力される。なお、この場合に、この処理により得られたユーザにより選択された文書の属性頻度系列情報を属性頻度系列情報記憶部4に記憶させることにより、属性頻度系列情報記憶部4に記憶されている属性頻度系列情報のデータベースを更新してもよい。   When the user selects a document to be a search query, the similarity calculation unit 5 determines whether the attribute frequency series information storage unit 4 stores the attribute frequency series information of the document selected by the user. Determine whether. When the attribute frequency series information of the document selected by the user is stored in the attribute frequency series information storage unit 4, the similarity calculation unit 5 displays the attribute frequency series information of the document selected by the user as the attribute frequency series. Read from the information storage unit 4. If the attribute frequency series information of the document selected by the user is not stored in the attribute frequency series information storage unit 4, the steps by the word extraction unit 1 and the attribute frequency series information generation unit 3 for the document selected by the user The processing of S1 and step S3 is performed, and the attribute frequency series information of the document selected by the user obtained by this processing is input to the similarity calculation unit 5. In this case, the attribute frequency series information storage unit 4 stores the attribute frequency series information of the document selected by the user, which is obtained by this process, so that the attribute frequency series information storage unit 4 stores the attributes. The database of frequency series information may be updated.

類似性計算部5は、属性頻度系列情報記憶部4から読み込んだ各文書の属性頻度系列情報と、入力された属性頻度系列情報との類似性を計算する(ステップS5)。計算された類似性は、文書の識別情報とセットで類似文書情報出力部6に出力される。   The similarity calculation unit 5 calculates the similarity between the attribute frequency series information of each document read from the attribute frequency series information storage unit 4 and the input attribute frequency series information (step S5). The calculated similarity is output to the similar document information output unit 6 as a set together with the document identification information.

2個の属性頻度系列情報の関係を比べることについてここまで類似性で説明を行ってきたが、類似性としては、Bhattacharyya Coefficient等の類似度、Kullback-Leibler divergence、Itakura-Saito divergence、Bregman divergence等の非類似度、ローカルディスタンスとしてユークリッド距離を用いた場合のDynamic Time Warping、Earth mover's distance等の距離尺度を用いることができる。もちろん、2個の属性頻度系列情報間の類似性を測ることができれば、上記以外の類似性を表す指標を用いてもよい。   The comparison of the relationship between two attribute frequency series information has been explained so far with similarities, but the similarities include similarity such as Bhattacharyya Coefficient, Kullback-Leibler divergence, Itakura-Saito divergence, Bregman divergence, etc. A distance scale such as Dynamic Time Warping and Earth mover's distance when Euclidean distance is used as the dissimilarity of, and local distance can be used. Of course, as long as the similarity between two pieces of attribute frequency series information can be measured, an index representing similarity other than the above may be used.

属性頻度系列情報が属性の頻度の系列を表すヒストグラムである場合には、互いの類似性を計算する2個の文書の属性頻度系列情報であるヒストグラムのビンの数が異なる場合がある。例えば、所定の単位の大きさが1ページであり、これらの2個の文書のページ数が異なる場合には、これらの2個の文書の属性頻度系列情報であるヒストグラムのビンの数は異なることになる。   When the attribute frequency series information is a histogram representing an attribute frequency series, the number of bins in the histogram that is attribute frequency series information of two documents for calculating the similarity between them may be different. For example, when the predetermined unit size is one page and the number of pages of these two documents is different, the number of histogram bins that are attribute frequency series information of these two documents is different. become.

ここで、類似性としてBhattacharyya Coefficient等のビンの数が同一であることを前提とする指標を用いる場合には、2個の文書の属性頻度系列情報であるヒストグラムのビンの数を同一にする必要がある。   Here, when using an index based on the assumption that the number of bins is the same, such as Bhattacharyya Coefficient, the number of histogram bins that are attribute frequency series information of two documents must be the same. There is.

この場合、類似性計算部5は、互いの類似性を計算する2個の文書の属性頻度系列情報であるヒストグラムのビンの数が所定のビンの数になるように、互いの類似性を計算する2個の文書の属性頻度系列情報であるヒストグラムを正規化し、正規化されたヒストグラムに基づいて類似性を計算する。所定のビンの数は、予め定められた固定の値(例えば、「起」「承」「転」「結」を想定して“4”とする。)でもよいし、互いの類似性を計算する2個の文書の属性頻度系列情報であるヒストグラムのビンの数の中の少ない方のビンの数でもよいし、互いの類似性を計算する2個の文書の属性頻度系列情報であるヒストグラムのビンの数の中の多い方のビンの数でもよいし、互いの類似性を計算する2個の文書の属性頻度系列情報であるヒストグラムのビンの数の最大公約数でもよい。また、所定のビンの数は、後述する粒度設定部71により設定されたビンの数であってもよい。   In this case, the similarity calculation unit 5 calculates the similarity between each other so that the number of bins in the histogram, which is the attribute frequency series information of the two documents for calculating the similarity between each other, becomes the predetermined number of bins. The histogram which is the attribute frequency series information of the two documents to be normalized is normalized, and the similarity is calculated based on the normalized histogram. The predetermined number of bins may be a predetermined fixed value (for example, “4” assuming “start”, “approval”, “turn”, “conclusion”), and calculate the similarity between each other. The number of bins of the histogram that is the attribute frequency series information of the two documents to be used may be the smaller number of bins, or the histogram of the attribute frequency series information of the two documents that calculate the similarity between the two documents It may be the number of bins with the larger number of bins, or may be the greatest common divisor of the number of bins in the histogram that is attribute frequency series information of two documents for calculating the similarity between each other. The predetermined number of bins may be the number of bins set by a granularity setting unit 71 described later.

以下、ヒストグラムの正規化の例について説明する。図5に表された、文書Aの属性頻度系列情報であるヒストグラムのビンの数は4であり、文書Bの属性頻度系列情報であるヒストグラムの数は6である。図5のグラフの横軸はビンであり、図5のグラフの縦軸は総頻度に占める割合である。   Hereinafter, an example of histogram normalization will be described. The number of bins of the histogram that is the attribute frequency series information of the document A shown in FIG. 5 is 4, and the number of histograms that is the attribute frequency series information of the document B is 6. The horizontal axis of the graph of FIG. 5 is the bin, and the vertical axis of the graph of FIG. 5 is the ratio of the total frequency.

これらのヒストグラムをビンの数が4になるように正規化することを考える。文書Aのヒストグラムのビンの数は元々4であるため、文書Aのヒストグラムについては何もしない。   Consider normalizing these histograms so that the number of bins is four. Since the number of bins in the histogram of document A is originally four, nothing is done about the histogram of document A.

一方、文書Bのヒストグラムのビンの数は6であるため、例えば図6に示すように、6/4=1.5の大きさのビンごとに頻度を振り分ける必要がある。図6では、2個目のビン及び5個目のビンが、1.5の大きさのビンによる振り分けによる振り分け境界に位置している。このように、振り分け境界に位置するビンの頻度の頻度は、例えば按分により行う。この例では、2個目のビン及び5個目のビンの頻度を50%ずつ振り分ける。その結果、文書Bのヒストグラムは図7のようになる。例えば、このように、ヒストグラムの正規化を行ってもよい。   On the other hand, since the number of bins in the histogram of document B is 6, for example, as shown in FIG. 6, it is necessary to distribute the frequency for each bin having a size of 6/4 = 1.5. In FIG. 6, the second bin and the fifth bin are located at the sorting boundary by sorting by the 1.5-size bin. As described above, the frequency of the bins located at the distribution boundary is determined by, for example, proportional distribution. In this example, the frequency of the second bin and the fifth bin is distributed by 50%. As a result, the histogram of document B is as shown in FIG. For example, histogram normalization may be performed in this way.

以下、ユーザによる、検索のクエリとなる文書の属性頻度系列情報の選択の例について説明する。   Hereinafter, an example of selection of attribute frequency series information of a document to be a search query by the user will be described.

液晶ディスプレイ、CRT等の表示装置である表示部7には、図8の表示がされているとする。ユーザは、図8の左上のタイトル又は著者等を入力するテキストボックスに、検索のクエリとなる文書の情報をキーボード、タッチパネル等の入力装置により入力する。図8の例では、タイトルのテキストボックスに「かわいそうなきりん」というタイトルが入力されている。   It is assumed that the display shown in FIG. 8 is displayed on the display unit 7 which is a display device such as a liquid crystal display or a CRT. The user inputs information of a document to be a search query into an input device such as a keyboard or a touch panel in a text box for inputting a title or an author at the upper left in FIG. In the example of FIG. 8, the title “Irish Giraffe” is entered in the title text box.

この状態で、ユーザが「検索」のボタンを、マウス、タッチパネル等のポインティングデバイスによりクリックすると、図示していない検索装置は、クリックされた位置である「検索」のボタンに対応づけられた検索処理、即ち、テキストボックスに入力された情報を基に前方一致検索等の検索処理を行い、その検索結果を図8の右欄に表示する。図8の例では、「かわいそうなきりん」という文字列で始まる文書の検索結果として、「かわいそうなきりん」という一件が検索結果として表示されている。ユーザが、ポインティングデバイスにより「かわいそうなきりん」という検索結果を選択すると、表示部7には図9の表示がされる。   In this state, when the user clicks a “search” button with a pointing device such as a mouse or a touch panel, a search device (not shown) performs a search process associated with the “search” button at the clicked position. That is, a search process such as a forward match search is performed based on the information input in the text box, and the search result is displayed in the right column of FIG. In the example of FIG. 8, as a search result of a document starting with the character string “poor giraffe”, one item “poor giraffe” is displayed as the search result. When the user selects the search result “poor giraffe” with the pointing device, the display unit 7 displays FIG.

図9では、検索結果の表示画面上に、更に「キャラクタや出来事が似ている絵本」と、「ストーリー展開が似ている絵本」という2個のボタンが重畳してポップアップ表示される。ここで、ユーザがポインティングデバイスにより「ストーリー展開が似ている絵本」をクリックすると、クエリとなる文書として「かわいそうなきりん」というタイトルが類似文書検索装置の類似性計算部5に入力される。   In FIG. 9, on the search result display screen, two buttons of “picture book with similar characters and events” and “picture book with similar story development” are further displayed in a pop-up manner. Here, when the user clicks “picture book with similar story development” using a pointing device, the title “poor giraffe” is input to the similarity calculation unit 5 of the similar document search apparatus as a query document.

類似性計算部5は、「かわいそうなきりん」というタイトルを入力として、「かわいそうなきりん」というタイトルの文書の属性頻度系列情報を属性頻度系列情報記憶部4から読み込み、検索のクエリとなる文書の属性頻度系列情報とする。「かわいそうなきりん」というタイトルの文書の属性頻度系列情報が属性頻度系列情報記憶部4に記憶されていない場合には、「かわいそうなきりん」というタイトルの文書について、単語抽出部1と属性頻度系列情報生成部3の処理が行われ、この処理により得られた属性頻度系列情報が類似性計算部5に入力される。   The similarity calculation unit 5 reads the attribute frequency series information of the document having the title “poor giraffe” from the attribute frequency series information storage unit 4 with the title “poor giraffe” as an input, and searches for the document that is the search query. It is attribute frequency series information. If the attribute frequency series information of the document titled “Unhappy Giraffe” is not stored in the attribute frequency series information storage unit 4, the word extraction unit 1 and the attribute frequency series are selected for the document titled “Kairin Kirin”. The processing of the information generation unit 3 is performed, and the attribute frequency series information obtained by this processing is input to the similarity calculation unit 5.

なお、ユーザがポインティングデバイスにより「キャラクタや出来事が似ている絵本」をクリックすると、「かわいそうなきりん」というタイトルの文書にキャラクタや出来事が似ている絵本が、この発明による類似文書検索装置とは異なる文書検索装置により検索され、その検索結果が表示される。文書検索装置の例は、例えば特開2014−235723号公報又は特開2016−148927号公報に記載された情報提示装置である。   When a user clicks on a picture book with similar characters and events using a pointing device, a picture book with similar characters and events to a document titled “Kairin Kirin” is the similar document search device according to the present invention. A search is performed by a different document search apparatus, and the search result is displayed. An example of the document search device is an information presentation device described in, for example, Japanese Patent Application Laid-Open No. 2014-235723 or Japanese Patent Application Laid-Open No. 2006-148927.

特開2016−148927号公報の情報提示装置は、入力されたクエリ(上記の例では、「かわいそうなきりん」というタイトルの文書)から「きりん」「動物園」など登場するキャラクタや絵本の舞台などを表す文書中の特徴語や著者等の書誌情報を特徴として抽出し、クエリの特徴との類似度が所定値以上の特徴を含む(すなわち共通のキャラクタや舞台が登場する、あるいは、同一著者によって著されているなどの共通点を有する)オブジェクト情報(例えば絵本)を複数探索する。特開2016−148927号公報の情報提示装置は、探索された複数のオブジェクト情報の各々を示すノードの各々の二次元平面座標を、各ノードが示すオブジェクト情報の特徴間の類似度が高いほどノード間の距離が近くなるように算出し、オブジェクト情報とクエリとの類似度が高いほど高くなるノードの標高を算出し、算出された二次元平面座標及び高さ情報が示す三次元座標位置にノードの各々をプロットし、クエリから所定の範囲にプロットされるオブジェクトを探索結果として提示するものである。   The information presentation apparatus disclosed in Japanese Patent Application Laid-Open No. 2006-148927 is used to display characters such as “Kirin” and “Zoo” from the input query (in the above example, a document titled “Kairin Kirin”) and the stage of a picture book. Bibliographic information such as feature words and authors in the document to be represented is extracted as features, and includes features whose similarity to the query features exceeds a predetermined value (that is, a common character or stage appears, or is written by the same author) A plurality of pieces of object information (for example, picture books) having a common point such as a picture book. In the information presentation apparatus disclosed in Japanese Patent Application Laid-Open No. 2006-148927, the higher the similarity between the features of the object information indicated by each node, the higher the similarity between the two-dimensional plane coordinates of each node indicating each of the searched object information Calculate so that the distance between them is closer, calculate the altitude of the node that is higher as the similarity between the object information and the query is higher, and the node at the 3D coordinate position indicated by the calculated 2D plane coordinates and height information Are plotted, and an object plotted in a predetermined range from the query is presented as a search result.

図8及び図9に示した表示部7の表示画面が、ユーザにより選択された属性頻度系列情報の入力を受け付ける入力部72の一例である。   The display screen of the display unit 7 illustrated in FIGS. 8 and 9 is an example of the input unit 72 that receives input of attribute frequency series information selected by the user.

以下、ユーザによる、検索のクエリとなる文書の属性頻度系列情報の選択の他の例について説明する。   Hereinafter, another example of selection of attribute frequency series information of a document to be a search query by the user will be described.

表示部7には、図10の表示がされているとする。図10では、図10の左側にハッピーエンドを表す属性頻度系列情報の例が示されており、図10の右側に悲しいお話を表す属性頻度系列情報の例が示されている。図10において、属性頻度系列情報は一本の曲線で表されており、横軸は物語の進行度合いを表し、縦軸は上に行くほどpositive度合いが高く下に行くほどnegative度合いが低くなるようなスコアを意味するとする。ユーザが、図10の左のハッピーエンドのグラフをポインティングデバイスにより選択すると、そのハッピーエンドのグラフに対応する属性頻度系列情報が選択される。また、ユーザが、図10の右の悲しいお話のグラフをポインティングデバイスにより選択すると、その悲しいお話のグラフに対応する属性頻度系列情報が選択される。   Assume that the display unit 7 displays FIG. In FIG. 10, an example of attribute frequency series information representing a happy ending is shown on the left side of FIG. 10, and an example of attribute frequency series information representing a sad story is shown on the right side of FIG. In FIG. 10, the attribute frequency series information is represented by a single curve, the horizontal axis represents the degree of progress of the story, and the vertical axis indicates that the positive degree increases as it goes up and the negative degree decreases as it goes down. Suppose it means a good score. When the user selects the happy end graph on the left side of FIG. 10 with the pointing device, the attribute frequency series information corresponding to the happy end graph is selected. When the user selects the sad story graph on the right side of FIG. 10 with the pointing device, the attribute frequency series information corresponding to the sad story graph is selected.

図10に示した表示部7の表示画面が、ユーザにより選択された属性頻度系列情報の入力を受け付ける入力部72の一例である。   The display screen of the display unit 7 illustrated in FIG. 10 is an example of the input unit 72 that receives input of attribute frequency series information selected by the user.

以下、ユーザによる、検索のクエリとなる文書の属性頻度系列情報の描写の例について説明する。図11では、属性頻度系列情報を一本の曲線で表している。属性頻度系列情報を一本の曲線で表すことにより、属性頻度系列情報を二本の以上の曲線で表すよりもユーザが直感的に属性頻度系列情報を入力することができるため、属性頻度系列情報を描写するユーザの入力の際の負担を軽減することができる。   Hereinafter, an example of description of attribute frequency series information of a document to be a search query by the user will be described. In FIG. 11, the attribute frequency series information is represented by a single curve. By expressing the attribute frequency series information by a single curve, the attribute frequency series information can be input more intuitively by the user than by expressing the attribute frequency series information by two or more curves. It is possible to reduce the burden on the user's input of depicting the image.

図11の曲線の描写領域をポインティングデバイスでユーザがクリックすると頂点を指定することができる。図11では、頂点を○で表している。そして、ユーザが複数の頂点を指定すると、指定された頂点を通るn次スプライン曲線等の曲線が生成される。曲線上をクリックすると新たな頂点の指定をすることができ、頂点をドラックすることにより曲線の形状を変更可能であってもよい。例えば、このようにして属性頻度系列情報を表す曲線が描写される。   When the user clicks the drawing area of the curve in FIG. 11 with a pointing device, a vertex can be designated. In FIG. 11, the vertices are indicated by ◯. When the user designates a plurality of vertices, a curve such as an nth-order spline curve passing through the designated vertices is generated. A new vertex can be specified by clicking on the curve, and the shape of the curve may be changed by dragging the vertex. For example, a curve representing attribute frequency series information is drawn in this way.

図11に示した表示部7の表示画面が、ユーザにより描画された属性頻度系列情報の入力を受け付ける入力部72の一例である。   The display screen of the display unit 7 illustrated in FIG. 11 is an example of the input unit 72 that receives input of attribute frequency series information drawn by the user.

また、図11では、曲線の描写領域の横に、「ハッピーエンド」のストーリーを有する文書の属性頻度系列情報に対応する曲線の例、「悲しいお話」のストーリーを有する文書の属性頻度系列情報に対応する曲線の例が表示されている。このように、各ストーリーを有する文書の属性頻度系列情報に対応する曲線の例を表示することで、ユーザが曲線を描写する際のお手本にすることができるので、ユーザの曲線の描写が容易となる。   Also, in FIG. 11, an example of a curve corresponding to attribute frequency series information of a document having a “happy ending” story, an attribute frequency series information of a document having a “sad story” story, beside the curved drawing area. An example of the corresponding curve is displayed. In this way, by displaying an example of a curve corresponding to the attribute frequency series information of a document having each story, it can be used as a model when the user draws a curve, so that the user can easily draw the curve. Become.

例えば、このようにして描写された曲線である属性頻度系列情報がそのまま検索のクエリとなる文書の属性頻度系列情報として類似性計算部5に入力されてもよいし、曲線である属性頻度系列情報が所定のビンの数のヒストグラムに変換され、変換されたヒストグラムが検索のクエリとなる文書の属性頻度系列情報として類似性計算部5に入力されてもよい。   For example, the attribute frequency series information that is a curve drawn in this way may be input as it is to the similarity calculation unit 5 as the attribute frequency series information of a document that is a search query, or the attribute frequency series information that is a curve May be converted into a histogram having a predetermined number of bins, and the converted histogram may be input to the similarity calculation unit 5 as attribute frequency series information of a document to be a search query.

ここで、ある文書の属性頻度系列情報は、その文書のストーリー展開を表す。このため、属性頻度系列情報が似ている文書は、ストーリーが似ている文書である可能性が高い。このため、属性頻度系列情報が似ている文書を見つけることで、ストーリーが似ている文書を見つけることができるのである。そのため、類似性計算部5は、属性頻度系列情報の類似性を計算しているのである。   Here, the attribute frequency series information of a certain document represents the story development of the document. For this reason, documents with similar attribute frequency series information are highly likely to be documents with similar stories. For this reason, a document with a similar story can be found by finding a document with similar attribute frequency series information. Therefore, the similarity calculation unit 5 calculates the similarity of the attribute frequency series information.

<類似文書情報出力部6>
類似文書情報出力部6は、類似性計算部5で計算された類似性が高い文書についての情報を表示部7に出力する(ステップS6)。
<Similar Document Information Output Unit 6>
The similar document information output unit 6 outputs information about a document with high similarity calculated by the similarity calculation unit 5 to the display unit 7 (step S6).

類似文書情報出力部6は、類似性が所定の閾値よりも高い文書についての情報を表示部7に出力してもよいし、類似性が高い方から所定の個数の文書についての情報を表示部7に出力してもよい。   The similar document information output unit 6 may output information about a document whose similarity is higher than a predetermined threshold to the display unit 7, or display information about a predetermined number of documents from the higher similarity 7 may be output.

所定の閾値及び所定の個数は、求められる仕様に応じて適宜決定される。例えば、図12のようにディスプレイに絵本の表紙一覧を出す場合、題名が読める程度のサイズに表示しつつ一覧性を保つ程度の値を予め設定しておいてもよい。   The predetermined threshold and the predetermined number are appropriately determined according to required specifications. For example, when a picture book cover list is displayed on the display as shown in FIG. 12, a value that keeps the list while displaying the title in a size that can be read may be set in advance.

<表示部7>
表示部7は、類似文書情報出力部6が出力した類似性が高い文書についての情報を類似文書検索結果として表示する(ステップS7)。例えば、類似文書検索結果として、文書のタイトルが表示される。また、類似文書検索結果には、文書のタイトルだけではなく、文書の属性頻度系列情報等の文書に関する情報が含まれていてもよい。
<Display unit 7>
The display unit 7 displays information about a document with high similarity output by the similar document information output unit 6 as a similar document search result (step S7). For example, the document title is displayed as a similar document search result. The similar document search result may include not only the document title but also information related to the document such as the attribute frequency series information of the document.

以下、表示部7に表示される類似文書検索結果の例について説明する。   Hereinafter, an example of a similar document search result displayed on the display unit 7 will be described.

図12では、「かわいそうなきりん」というタイトルの文書の属性頻度系列情報と類似性が高い15件の文書が表示されている。   In FIG. 12, fifteen documents having high similarity to the attribute frequency series information of the document titled “Kairin Kirin” are displayed.

図12の表示において、ポインティングデバイスでユーザが類似性が高い文書をロールオーバー又は選択すると、図13に示すように、その類似性が高い文書の属性頻度系列情報が類似文書検索結果として表示されてもよい。   In the display of FIG. 12, when the user rolls over or selects a document with high similarity with the pointing device, the attribute frequency series information of the document with high similarity is displayed as a similar document search result as shown in FIG. Also good.

図13では、「5ひきのいぬ」という文書がロールオーバー又は選択されたため、「5ひきのいぬ」というタイトルの文書の属性頻度系列情報がポップアップ表示されている。
また、図13では、検索のクエリとなる「かわいそうなきりん」というタイトルの文書の属性頻度系列情報が更に表示されている。このように、検索のクエリとなる文書の属性頻度系列情報を類似文書検索結果として更に表示することで、2個の文書の属性頻度系列情報がどの位類似しているのかをユーザが把握することができ、属性頻度系列情報の類似性、すなわち、例えば「positive」「negative」度合いの推移(物語の進行)によるストーリーとしての類似性を直観的に把握することができる。
In FIG. 13, since the document “5 hikininu” is rolled over or selected, the attribute frequency series information of the document titled “5 hikinuinu” is displayed in a pop-up.
Further, in FIG. 13, the attribute frequency series information of the document titled “A poor giraffe” as a search query is further displayed. In this way, the user can grasp how similar the attribute frequency series information of two documents is by further displaying the attribute frequency series information of the document as a search query as a similar document search result. It is possible to intuitively grasp the similarity of attribute frequency series information, that is, the similarity as a story due to, for example, the transition of “positive” and “negative” degrees (progress of story).

この例では、クエリである「かわいそうなきりん」というタイトルの文書の属性頻度系列情報と、検索結果の「5ひきのいぬ」というタイトルの文書の属性頻度系列情報とは、実線で示された「positive」が破線で示された「negative」を上回る部分もあるが、ほとんどの部分で「negative」が「positive」を上回っている点、「negative」が「positive」を上回ったまま終わっている点が類似している。言い換えれば、全体的にも最終的にも悲しいお話を表しているという点で類似している。このように、クエリである「かわいそうなきりん」というタイトルの文書は、全体的にも最終的にも「negative」属性を有する単語の数が「positive」属性を有する単語の数を上回る悲しいお話であるため、同様に全体的にも最終的にも「negative」属性を有する単語の数が「positive」属性を有する単語の数を上回るという意味で、属性頻度系列情報が「かわいそうなきりん」と類似し、同様に悲しいお話である、検索結果の「5ひきのいぬ」というタイトルの文書と似ていると判定されている。   In this example, the attribute frequency series information of a document titled “Kairin Kirin” as a query and the attribute frequency series information of a document titled “5 hikinuinu” as a search result are indicated by a solid line. There are parts where “positive” exceeds “negative” indicated by a broken line, but in most parts, “negative” exceeds “positive”, and “negative” exceeds “positive”. Are similar. In other words, they are similar in that they represent a sad story, both overall and ultimately. In this way, the document with the title “poor giraffe”, which is a query, is a sad story in which the number of words with the “negative” attribute exceeds the number of words with the “positive” attribute overall and ultimately. Similarly, the attribute frequency series information is similar to “poor giraffe” in the sense that the number of words with the “negative” attribute exceeds the number of words with the “positive” attribute, both overall and ultimately. However, it is determined that the document is similar to the document titled “5 Hiki no Inu” in the search result, which is also a sad story.

ここで、ある文書の属性頻度系列情報は、その文書のストーリー展開を表す。このため、属性頻度系列情報が似ている文書は、ストーリーが似ている文書である可能性が高い。このため、属性頻度系列情報が似ている文書を見つけることで、ストーリーが似ている文書を見つけることができるのである。これにより、話の類型に基づく絵本等の文書の検索を行うことができる。   Here, the attribute frequency series information of a certain document represents the story development of the document. For this reason, documents with similar attribute frequency series information are highly likely to be documents with similar stories. For this reason, a document with a similar story can be found by finding a document with similar attribute frequency series information. Thereby, it is possible to search for a document such as a picture book based on the type of story.

ここで、表示された、検索のクエリとなる「かわいそうなきりん」というタイトルの文書の属性頻度系列情報の曲線をユーザが調整可能であってもよい。この場合、調整後の属性頻度系列情報に対応する類似文書検索結果がリアルタイムに表示されてもよい。   In this case, the user may be able to adjust the curve of the attribute frequency series information of the document with the title “poor giraffe” that is displayed as a search query. In this case, the similar document search result corresponding to the adjusted attribute frequency series information may be displayed in real time.

[変形例]
<変形例1>
異なる複数の所定の単位のそれぞれに対応する各文書の属性頻度系列情報が、単語抽出部1及び属性頻度系列情報生成部3により生成され、所定の単位と対応づけられて属性頻度系列情報記憶部4に記憶されていてもよい。例えば、所定の単位を1ページとしたときの各文書の属性頻度系列情報と、所定の単位を2ページとしたときの各文書の属性頻度系列情報とが、単語抽出部1及び属性頻度系列情報生成部3により生成され、属性頻度系列情報記憶部4に記憶されていてもよい。
[Modification]
<Modification 1>
The attribute frequency series information of each document corresponding to each of a plurality of different predetermined units is generated by the word extraction unit 1 and the attribute frequency series information generation unit 3, and is associated with the predetermined unit to be an attribute frequency series information storage unit 4 may be stored. For example, the attribute frequency series information of each document when the predetermined unit is one page and the attribute frequency series information of each document when the predetermined unit is two pages are the word extraction unit 1 and the attribute frequency series information. It may be generated by the generation unit 3 and stored in the attribute frequency series information storage unit 4.

なお、文書を構成する最小の単位を所定の単位とした場合の各文書の属性頻度系列情報が、単語抽出部1及び属性頻度系列情報生成部3により生成され、所定の単位と対応づけられて属性頻度系列情報記憶部4に記憶されていてもよい。この場合、異なる複数の単位のそれぞれと最小の単位との関係を示す情報も、属性頻度系列情報記憶部4に記憶されているとする。このとき、後述する粒度設定部71により所定の単位が設定された場合には、その設定された所定の単位と最小の単位との関係に基づいて、その設定された所定の単位に対応する各文書の属性頻度系列情報が計算され、類似性計算部5に出力される。   Note that the attribute frequency sequence information of each document when the minimum unit constituting the document is a predetermined unit is generated by the word extraction unit 1 and the attribute frequency sequence information generation unit 3, and is associated with the predetermined unit. It may be stored in the attribute frequency series information storage unit 4. In this case, it is assumed that information indicating the relationship between each of a plurality of different units and the minimum unit is also stored in the attribute frequency series information storage unit 4. At this time, when a predetermined unit is set by a granularity setting unit 71 described later, each of the units corresponding to the set predetermined unit is based on the relationship between the set predetermined unit and the minimum unit. The attribute frequency series information of the document is calculated and output to the similarity calculation unit 5.

例えば、最小単位としてページを単位とする各文書の属性頻度系列情報が、所定の単位と対応づけられて属性頻度系列情報記憶部4に記憶される。さらに、最小単位であるページとページより大きな単位である章について、各章とページとの対応関係(1章は10ページ、2章は12ページで構成されている、等)が属性頻度系列情報記憶部4に記憶される。粒度設定部71により所定の単位が「章」に設定された場合には、所定の単位「章」と最小の単位「ページ」との関係に基づいて、1から10ページ目までの属性頻度系列情報から「1章」の属性頻度系列情報が計算され、同様に11から22ページ目までの属性頻度系列情報から「2章」の属性頻度系列情報が計算され、それぞれ類似性計算部5に出力される。なお、所定の単位と最小の単位との関係は、章とページの関係に限られない。例えば、文を最小単位とした場合には、所定の単位はページであってもよいし、章であってもよい。すなわち、所定の単位と最小の単位との関係は、ページと文の関係や、章と文の関係であってもよい。   For example, the attribute frequency series information of each document having a page as a minimum unit is stored in the attribute frequency series information storage unit 4 in association with a predetermined unit. Furthermore, with respect to pages that are the smallest unit and chapters that are larger than the page, the correspondence between each chapter and the page (1 chapter is composed of 10 pages, 2 chapters are composed of 12 pages, etc.) is attribute frequency series information. It is stored in the storage unit 4. When the predetermined unit is set to “chapter” by the granularity setting unit 71, the attribute frequency series from the 1st to the 10th page based on the relationship between the predetermined unit “chapter” and the minimum unit “page” The attribute frequency series information of “Chapter 1” is calculated from the information. Similarly, the attribute frequency series information of “Chapter 2” is calculated from the attribute frequency series information from the 11th page to the 22nd page, and output to the similarity calculation unit 5 respectively. Is done. Note that the relationship between the predetermined unit and the minimum unit is not limited to the relationship between the chapter and the page. For example, when the sentence is the minimum unit, the predetermined unit may be a page or a chapter. That is, the relationship between the predetermined unit and the minimum unit may be a relationship between a page and a sentence or a relationship between a chapter and a sentence.

この場合、表示部7には、所定の単位を設定可能な粒度設定部71が表示されていてもよい。粒度設定部71の例は、図14から図18を用いて説明する、ボタン、スライダーバー及びプルダウンメニューである。   In this case, the display unit 7 may display a granularity setting unit 71 capable of setting a predetermined unit. Examples of the granularity setting unit 71 are a button, a slider bar, and a pull-down menu, which will be described with reference to FIGS.

図14の「ストーリー展開が似ている絵本」の中の「おおまか」「詳細」というボタンである。「おおまか」のボタンには、「詳細」のボタンに対応付けられている単位の大きさよりも大きな単位が対応付けられているとする。   The buttons are “Rough” and “Details” in “Picture books with similar story development” in FIG. Assume that the “large” button is associated with a unit larger than the unit associated with the “detail” button.

ユーザがポインティングデバイスにより「おおまか」のボタンをクリックすると、属性頻度系列情報記憶部4に記憶されている属性頻度系列情報の中の、「おおまか」のボタンに対応付けられている大きさの単位を所定の単位とする属性頻度系列情報に基づいて、類似性計算部5、類似文書情報出力部6及び表示部7の処理が行われる。例えば、「おおまか」のボタンには、検索対象の文書集合に属する文書の平均的な長さを基準としてストーリーの概要に着目した文書検索を行うことができる単位を対応付けておき、「おおまか」のボタンをクリックすることにより検索を行うことで、ストーリーの概要に着目した文書検索を行うことができる。   When the user clicks the “Rough” button with the pointing device, the unit of the size associated with the “Rough” button in the attribute frequency sequence information stored in the attribute frequency sequence information storage unit 4 is selected. Based on the attribute frequency series information as a predetermined unit, the similarity calculation unit 5, the similar document information output unit 6, and the display unit 7 are processed. For example, the “Okaka” button is associated with a unit capable of performing a document search focusing on the outline of the story based on the average length of documents belonging to the document set to be searched. By performing a search by clicking the button, it is possible to perform a document search focusing on the outline of the story.

また、ユーザがポインティングデバイスにより「詳細」のボタンをクリックすると、属性頻度系列情報記憶部4に記憶されている属性頻度系列情報の中の、「詳細」のボタンに対応付けられている大きさの単位を所定の単位とする属性頻度系列情報に基づいて、類似性計算部5、類似文書情報出力部6及び表示部7の処理が行われる。「詳細」のボタンをクリックすることにより検索を行うことで、ストーリーの細部に着目した文書検索を行うことができる。   Further, when the user clicks the “detail” button with the pointing device, the size corresponding to the “detail” button in the attribute frequency sequence information stored in the attribute frequency sequence information storage unit 4. Based on the attribute frequency series information whose unit is a predetermined unit, the similarity calculation unit 5, the similar document information output unit 6 and the display unit 7 are processed. By performing a search by clicking the “detail” button, it is possible to perform a document search focusing on the details of the story.

なお、図15に示すように、「ストーリー展開が似ている絵本」の中に所定の単位を設定可能なスライダーバーと「検索」のボタンとが表示されていてもよい。このスライダーバーのつまみをポインティングデバイスで移動させることにより、所定の単位を設定することができる。スライダーバーのつまみは、連続的に移動可能であってもよいし、所定の複数の位置のみに非連続的に移動可能となっていてもよい。この所定の複数の位置は、文書を分割可能な複数の単位に対応している。この所定の複数の位置は、属性頻度系列情報記憶部4に記憶されている属性頻度系列情報に対応する異なる複数の所定の単位に対応していてもよい。   As shown in FIG. 15, a slider bar capable of setting a predetermined unit and a “search” button may be displayed in the “picture book with similar story development”. A predetermined unit can be set by moving the slider of the slider bar with a pointing device. The slider bar slider may be continuously movable, or may be discontinuously movable only to a predetermined plurality of positions. The predetermined plurality of positions correspond to a plurality of units into which the document can be divided. The predetermined plurality of positions may correspond to different predetermined units corresponding to the attribute frequency series information stored in the attribute frequency series information storage unit 4.

スライダーバーのつまみを所望の位置に置いた状態で「検索」のボタンをクリックすると、属性頻度系列情報記憶部4に記憶されている属性頻度系列情報の中の、その位置に対応する単位を所定の単位とする属性頻度系列情報に基づいて、類似性計算部5、類似文書情報出力部6及び表示部7の処理が行われる。   When the “search” button is clicked with the slider bar at the desired position, a unit corresponding to the position in the attribute frequency series information stored in the attribute frequency series information storage unit 4 is determined in advance. Based on the attribute frequency series information in the unit, the similarity calculation unit 5, the similar document information output unit 6 and the display unit 7 are processed.

なお、図15の例では、スライダーバーの両端に、所定の単位を所定の大きさに設定可能なボタンが表示されている。「よりおおまか」のボタンには、「より詳細」のボタンに対応付けられている単位の大きさよりも大きな単位が対応付けられているとする。   In the example of FIG. 15, buttons capable of setting a predetermined unit to a predetermined size are displayed at both ends of the slider bar. Assume that a unit larger than the unit associated with the “more detailed” button is associated with the “more rough” button.

ユーザがポインティングデバイスにより「よりおおまか」のボタンをクリックすると、「よりおおまか」のボタンに対応付けられている大きさの単位分だけ、その時点で設定されている第1の所定の単位(例えば、その時点でスライダーバーがのつまみが置かれている位置に対応する第1の所定の単位)より大きな単位を第2の所定の単位とし、属性頻度系列情報記憶部4に記憶されている属性頻度系列情報の中の、第2の所定の単位に対応する属性頻度系列情報に基づいて、類似性計算部5、類似文書情報出力部6及び表示部7の処理が行われる。「よりおおまか」のボタンがクリックされると、スライドバーのつまみが第2の所定の単位に対応する位置に自動的に移動するようにしてもよい。   When the user clicks the “more rough” button with the pointing device, the first predetermined unit (for example, the unit set to the size corresponding to the “more rough” button) is set (for example, The attribute frequency stored in the attribute frequency sequence information storage unit 4 is a unit larger than the first predetermined unit) corresponding to the position at which the slider bar is placed at that time, as the second predetermined unit. Based on the attribute frequency sequence information corresponding to the second predetermined unit in the sequence information, the similarity calculation unit 5, the similar document information output unit 6 and the display unit 7 are processed. When the “more rough” button is clicked, the slider of the slide bar may be automatically moved to a position corresponding to the second predetermined unit.

また、ユーザがポインティングデバイスにより「より詳細」のボタンをクリックすると、「より詳細」のボタンに対応付けられている大きさの単位分だけ、その時点で設定されている第3の所定の単位(例えば、その時点でスライダーバーがのつまみが置かれている位置に対応する第3の所定の単位)より小さな単位を第4の所定の単位とし、属性頻度系列情報記憶部4に記憶されている属性頻度系列情報の中の、第4の所定の単位に対応する属性頻度系列情報に基づいて、類似性計算部5、類似文書情報出力部6及び表示部7の処理が行われる。「より詳細」のボタンがクリックされると、スライドバーのつまみが第4の所定の単位に対応する位置に自動的に移動するようにしてもよい。   Further, when the user clicks the “more details” button with the pointing device, the third predetermined unit set at that time (the unit of the size associated with the “more details” button ( For example, a unit smaller than the third predetermined unit corresponding to the position where the knob of the slider bar is placed at that time is defined as a fourth predetermined unit, and is stored in the attribute frequency series information storage unit 4. Based on the attribute frequency series information corresponding to the fourth predetermined unit in the attribute frequency series information, the similarity calculation unit 5, the similar document information output unit 6, and the display unit 7 are processed. When the “more details” button is clicked, the slider of the slide bar may be automatically moved to a position corresponding to the fourth predetermined unit.

また、図16に示すように、「ストーリー展開が似ている絵本」の中にプルダウンメニューがあり、このプルダウンメニューにより所望の単位を設定可能であってもよい。図16の例では、プルダウンメニューにより「おおまか」「詳細」という項目が展開されている。
「おおまか」の項目には、「詳細」の項目に対応付けられている単位の大きさよりも大きな単位が対応付けられているとする。
Further, as shown in FIG. 16, there is a pull-down menu in “a picture book with similar story development”, and a desired unit may be set by this pull-down menu. In the example of FIG. 16, items “Rough” and “Details” are expanded from the pull-down menu.
It is assumed that a unit larger than the unit size associated with the “detail” item is associated with the item “Roughly”.

ユーザがポインティングデバイスにより、プルダウンメニューの中から「おおまか」の項目を選択すると、属性頻度系列情報記憶部4に記憶されている属性頻度系列情報の中の、「おおまか」の項目に対応付けられている大きさの単位を所定の単位とする属性頻度系列情報に基づいて、類似性計算部5、類似文書情報出力部6及び表示部7の処理が行われる。   When the user selects the item “Rough” from the pull-down menu using the pointing device, the item is associated with the “Rough” item in the attribute frequency sequence information stored in the attribute frequency sequence information storage unit 4. Based on the attribute frequency series information in which a unit of a certain size is a predetermined unit, processing of the similarity calculation unit 5, the similar document information output unit 6, and the display unit 7 is performed.

また、ユーザがポインティングデバイスにより、プルダウンメニューの中から「詳細」の項目を選択すると、属性頻度系列情報記憶部4に記憶されている属性頻度系列情報の中の、「詳細」の項目に対応付けられている大きさの単位を所定の単位とする属性頻度系列情報に基づいて、類似性計算部5、類似文書情報出力部6及び表示部7の処理が行われる。   Further, when the user selects the “detail” item from the pull-down menu using the pointing device, the item is associated with the “detail” item in the attribute frequency sequence information stored in the attribute frequency sequence information storage unit 4. Based on the attribute frequency series information whose unit of size is a predetermined unit, processing of the similarity calculation unit 5, the similar document information output unit 6, and the display unit 7 is performed.

図14から図16を用いて説明したように、検索前にユーザが粒度設定部71を用いて所定の単位を設定可能であってもよい。   As described with reference to FIGS. 14 to 16, the user may be able to set a predetermined unit using the granularity setting unit 71 before the search.

一方、図9、図17及び図18を用いて以下に説明するように、検索前はユーザが粒度設定部71を用いて所定の単位を設定可能ではなく予め定められた単位を所定の単位として検索が行われるが、検索後は類似文書検索結果の表示画面に表示された粒度設定部71を用いてユーザが所定の単位を設定可能であってもよい。   On the other hand, as will be described below with reference to FIGS. 9, 17 and 18, before the search, the user cannot set a predetermined unit using the granularity setting unit 71, and a predetermined unit is set as the predetermined unit. Although the search is performed, the user may be able to set a predetermined unit using the granularity setting unit 71 displayed on the similar document search result display screen after the search.

図9に示すように、「ストーリー展開が似ている絵本」の中に「おおまか」「詳細」というボタンがなくてもよい。この場合、「ストーリー展開が似ている絵本」のボタンをクリックすると、属性頻度系列情報記憶部4に記憶されている属性頻度系列情報の中の、予め定められた単位を所定の単位とする属性頻度系列情報に基づいて、類似性計算部5、類似文書情報出力部6及び表示部7の処理が行われる。   As shown in FIG. 9, there is no need for the buttons “Roughly” and “Details” in “Picture books with similar story development”. In this case, when the “story book with similar story development” button is clicked, an attribute having a predetermined unit as a predetermined unit in the attribute frequency series information stored in the attribute frequency series information storage unit 4 is selected. Based on the frequency series information, processing of the similarity calculation unit 5, the similar document information output unit 6, and the display unit 7 is performed.

この場合、図17に示すように、表示部7の類似文書検索結果の表示画面に、所定の単位を設定可能なスライダーバーが表示されていてもよい。ユーザは、このスライダーバーのつまみをポインティングデバイスで移動させることにより、所定の単位を設定することができる。スライダーバーのつまみは、連続的に移動可能であってもよいし、所定の複数の位置のみに非連続的に移動可能となっていてもよい。この所定の複数の位置は、文書を分割可能な複数の単位に対応している。この所定の複数の位置は、属性頻度系列情報記憶部4に記憶されている属性頻度系列情報に対応する異なる複数の所定の単位にそれぞれ対応していてもよい。スライダーバーのつまみの初期位置は、表示部7の類似文書検索結果を得る際に用いた所定の単位、言い換えれば所定の単位の初期値に対応しているとする。   In this case, as shown in FIG. 17, a slider bar capable of setting a predetermined unit may be displayed on the display screen of the similar document search result of the display unit 7. The user can set a predetermined unit by moving the slider bar slider with a pointing device. The slider bar slider may be continuously movable, or may be discontinuously movable only to a predetermined plurality of positions. The predetermined plurality of positions correspond to a plurality of units into which the document can be divided. The predetermined plurality of positions may respectively correspond to different predetermined units corresponding to the attribute frequency series information stored in the attribute frequency series information storage unit 4. It is assumed that the initial position of the slider bar knob corresponds to the predetermined unit used when obtaining the similar document search result on the display unit 7, in other words, the initial value of the predetermined unit.

図17の例では、スライダーバーの両端に、所定の単位を所定の大きさに設定可能なボタンが表示されている。「よりおおまか」のボタンには、「より詳細」のボタンに対応付けられている単位の大きさよりも大きな単位が対応付けられているとする。また、「よりおおまか」のボタンには所定の単位の初期値よりも大きな単位が対応付けられており、「より詳細」のボタンには所定の単位の初期値よりも小さな単位が対応付けられているとする。このように、互いに異なる大きさの単位が対応付けられている少なくとも1つのボタンが表示部7に表示されていてもよい。   In the example of FIG. 17, buttons capable of setting a predetermined unit to a predetermined size are displayed at both ends of the slider bar. Assume that a unit larger than the unit associated with the “more detailed” button is associated with the “more rough” button. In addition, a unit larger than the initial value of the predetermined unit is associated with the “more rough” button, and a unit smaller than the initial value of the predetermined unit is associated with the “more detailed” button. Suppose that As described above, at least one button associated with units having different sizes may be displayed on the display unit 7.

スライダーバー又はボタンにより所定の単位を設定した場合には、設定後の所定の単位に対応する類似文書検索結果がリアルタイムに表示されてもよい。すなわち、粒度設定部71による設定前の所定の単位を第一の所定の単位とし、粒度設定部71による設定後の所定の単位を第二の所定の単位として、表示部7は、粒度設定部71による設定前の第一の所定の単位に基づく第一の類似文書検索結果を表示するとともに、粒度設定部71による設定後の第二の所定の単位に基づく第二の類似文書検索結果を表示してもよい。これにより、ユーザは、粒度設定部71による設定後の所定の単位が、適切なものであったかどうかを確認することができる。   When a predetermined unit is set by a slider bar or button, a similar document search result corresponding to the predetermined unit after setting may be displayed in real time. That is, the predetermined unit before setting by the granularity setting unit 71 is set as a first predetermined unit, the predetermined unit after setting by the granularity setting unit 71 is set as a second predetermined unit, and the display unit 7 The first similar document search result based on the first predetermined unit before setting by 71 and the second similar document search result based on the second predetermined unit after setting by the granularity setting unit 71 are displayed. May be. Thereby, the user can confirm whether the predetermined unit after the setting by the granularity setting unit 71 is appropriate.

なお、図17の表示において、ユーザがポインティングデバイスでクエリとの類似性が高い文書として表示されている文書のうちの1つをロールオーバー又は選択すると、その類似性が高い文書の属性頻度系列情報が類似文書検索結果として表示される。また、図17の表示において、検索のクエリとなる文書の属性頻度系列情報が類似文書検索結果として更に表示されている。   In the display of FIG. 17, when the user rolls over or selects one of the documents displayed as a document having high similarity to the query on the pointing device, the attribute frequency series information of the document having high similarity. Is displayed as a similar document search result. In the display of FIG. 17, the attribute frequency series information of the document that is the search query is further displayed as a similar document search result.

なお、粒度設定部71による設定前の所定の単位を第一の所定の単位とし、粒度設定部71による設定後の所定の単位を第二の所定の単位として、図18に示すように、表示部7は、第一の所定の単位に基づく検索のクエリとなる文書の属性頻度系列情報及び第二の所定の単位に基づく検索のクエリとなる文書の属性頻度系列情報を並べて表示してもよい。図18では、左上に検索のクエリとなる文書の第一の所定の単位に基づく属性頻度系列情報が表示され、左下に同一の文書の第二の所定の単位に基づく属性頻度系列情報が表示されている。   As shown in FIG. 18, the predetermined unit before setting by the particle size setting unit 71 is set as the first predetermined unit, and the predetermined unit after setting by the particle size setting unit 71 is set as the second predetermined unit. The unit 7 may display the attribute frequency series information of the document serving as a search query based on the first predetermined unit and the attribute frequency series information of the document serving as a search query based on the second predetermined unit side by side. . In FIG. 18, the attribute frequency series information based on the first predetermined unit of the document that is the search query is displayed on the upper left, and the attribute frequency series information based on the second predetermined unit of the same document is displayed on the lower left. ing.

粒度設定部71による設定前の第一の所定の単位に基づく類似文書検索結果を第一の類似文書検索結果とし、粒度設定部71による設定後の第二の所定の単位に基づく類似文書検索結果を第二の類似文書検索結果としたとき、ユーザがポインティングデバイスで第二の類似文書検索結果に含まれる類似性が高い文書をロールオーバー又は選択すると、選択された類似性が高い文書の属性頻度系列情報が表示されてもよい。ユーザは、所定の単位を設定する前後の異なる所定の単位に基づく、検索のクエリとなる文書の属性頻度系列情報を同時に把握することができるため、設定後の所定の単位が適切なものであったかどうかを更に容易に確認することができる。   The similar document search result based on the first predetermined unit before setting by the granularity setting unit 71 is set as the first similar document search result, and the similar document search result based on the second predetermined unit after setting by the granularity setting unit 71 If the user rolls over or selects a document with high similarity included in the second similar document search result with the pointing device, the attribute frequency of the selected document with high similarity Series information may be displayed. Since the user can simultaneously grasp the attribute frequency series information of the document serving as a search query based on different predetermined units before and after setting the predetermined unit, is the predetermined unit after setting appropriate? It can be confirmed more easily.

なお、この設定後の所定の単位に対応する類似文書検索結果の表示は、複数回行うことが可能であってもよい。すなわち、スライダーバー又はボタンにより所定の単位が設定される度ごとに、設定後の所定の単位に対応する類似文書検索結果が、粒度設定部71による設定前の類似文書検索結果と共にリアルタイムに表示されてもよい。   It should be noted that the display of the similar document search result corresponding to the predetermined unit after the setting may be performed a plurality of times. That is, every time a predetermined unit is set by the slider bar or button, the similar document search result corresponding to the predetermined unit after setting is displayed in real time together with the similar document search result before setting by the granularity setting unit 71. May be.

なお、図17及び図18において、スライダーバーとボタンから構成された粒度設定部71に代えて、ボタンのみ、又は、プルダウンメニューで構成された粒度設定部71が設けられており、このボタンのみ、又は、プルダウンメニューで構成された粒度設定部71でユーザが所定の単位を設定可能であってもよい。   In FIG. 17 and FIG. 18, instead of the granularity setting unit 71 configured with a slider bar and buttons, only a button or a granularity setting unit 71 configured with a pull-down menu is provided. Alternatively, the user may be able to set a predetermined unit with the granularity setting unit 71 configured by a pull-down menu.

なお、図14から図16を用いて説明したように、検索前にユーザが粒度設定部71を用いて所定の単位を設定可能である場合においても、図17及び図18を用いて説明したのと同様の方法により類似文書検索結果の表示画面に表示された粒度設定部71を用いてユーザが所定の単位を設定可能であってもよい。   As described with reference to FIGS. 14 to 16, even when the user can set a predetermined unit using the granularity setting unit 71 before the search, the description has been made with reference to FIGS. 17 and 18. The user may be able to set a predetermined unit using the granularity setting unit 71 displayed on the similar document search result display screen by the same method.

<変形例2>
なお、属性頻度系列情報が、文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度の系列を表すヒストグラムであるとし、互いの類似性を計算する2個の属性頻度系列情報であるヒストグラムのビンの数が所定のビンの数になるように上記互いの類似性を計算する2個の属性頻度系列情報であるヒストグラムが正規化され、正規化されたヒスグラムに基づいて上記2個の類似性が計算される場合には、粒度設定部71は、所定のビンの数を設定可能であってもよい。
<Modification 2>
It is assumed that the attribute frequency series information is a histogram representing a series of attribute frequencies corresponding to words included in each of a plurality of segments constituting the document, and two attribute frequency series information for calculating similarity between each other Histograms, which are two pieces of attribute frequency series information for calculating the similarity between each other, are normalized so that the number of histogram bins becomes a predetermined number of bins, and the above 2 based on the normalized hisgram When the similarity is calculated, the granularity setting unit 71 may be able to set a predetermined number of bins.

粒度設定部71の例は、図14から図17を用いて説明する、ボタン、スライダーバー及びプルダウンメニューである。   Examples of the granularity setting unit 71 are a button, a slider bar, and a pull-down menu, which will be described with reference to FIGS.

例えば、図14の「おおまか」のボタンには、「詳細」のボタンに対応付けられている数よりも小さな数が対応付けられているとする。   For example, it is assumed that the “Rough” button in FIG. 14 is associated with a smaller number than the number associated with the “Detail” button.

ユーザがポインティングデバイスにより「おおまか」のボタンをクリックすると、「おおまか」のボタンに対応付けられているビンの数を所定のビンの数として類似性計算部5の処理が行われる。すなわち、粒度設定部71は、「おおまか」のボタンに対応付けられているビンの数を所定のビンの数として類似性計算部5に出力し、類似性計算部5は、入力された所定のビンの数に基づいて上記説明したステップS5の処理を行う。例えば、「おおまか」のボタンには、検索対象の文書集合に属する文書の平均的な長さを基準としてストーリーの概要に着目した文書検索を行うことができるビンの数を対応付けておき、「おおまか」のボタンをクリックすることにより検索を行うことで、ストーリーの概要に着目した文書検索を行うことができる。   When the user clicks the “Rough” button with the pointing device, the similarity calculation unit 5 performs the process with the number of bins associated with the “Rough” button as the predetermined number of bins. That is, the granularity setting unit 71 outputs the number of bins associated with the “Rough” button to the similarity calculation unit 5 as the predetermined number of bins, and the similarity calculation unit 5 Based on the number of bins, the process of step S5 described above is performed. For example, the “Okaka” button is associated with the number of bins that can be used to perform a document search focusing on the outline of the story based on the average length of documents belonging to the document set to be searched. By performing a search by clicking the “Rough” button, a document search focusing on the outline of the story can be performed.

また、ユーザがポインティングデバイスにより「詳細」のボタンをクリックすると、「詳細」のボタンに対応付けられているビンの数を所定のビンの数として類似性計算部5の処理が行われる。すなわち、粒度設定部71は、「詳細」のボタンに対応付けられているビンの数を所定のビンの数として類似性計算部5に出力し、類似性計算部5は、入力された所定のビンの数に基づいて上記説明したステップS5の処理を行う。「詳細」のボタンをクリックすることにより検索を行うことで、ストーリーの細部に着目した文書検索を行うことができる。   Further, when the user clicks the “detail” button with the pointing device, the similarity calculation unit 5 performs processing with the number of bins associated with the “detail” button as the predetermined number of bins. That is, the granularity setting unit 71 outputs the number of bins associated with the “detail” button to the similarity calculation unit 5 as the predetermined number of bins, and the similarity calculation unit 5 Based on the number of bins, the process of step S5 described above is performed. By performing a search by clicking the “detail” button, it is possible to perform a document search focusing on the details of the story.

なお、図15に示すように、「ストーリー展開が似ている絵本」の中に所定のビンの数を設定可能なスライダーバーと「検索」のボタンとが表示されていてもよい。このスライダーバーのつまみをポインティングデバイスで移動させることにより、ビンの数を設定することができる。スライダーバーのつまみは、連続的に移動可能であってもよいし、所定の複数の位置のみに非連続的に移動可能となっていてもよい。この所定の複数の位置は、所定の複数のビンの数に対応している。   As shown in FIG. 15, a slider bar that can set a predetermined number of bins and a “search” button may be displayed in “picture books with similar story development”. The number of bins can be set by moving the slider bar slider with a pointing device. The slider bar slider may be continuously movable, or may be discontinuously movable only to a predetermined plurality of positions. The predetermined plurality of positions correspond to the predetermined number of bins.

スライダーバーのつまみを所望の位置に置いた状態で「検索」のボタンをクリックすると、そのつまみの位置に対応するビンの数を所定のビンの数として類似性計算部5処理が行われる。すなわち、粒度設定部71は、そのつまみの位置に対応付けられているビンの数を所定のビンの数として類似性計算部5に出力し、類似性計算部5は、入力された所定のビンの数に基づいて上記説明したステップS5の処理を行う。   When the “search” button is clicked with the knob of the slider bar placed at a desired position, the similarity calculation unit 5 process is performed with the number of bins corresponding to the position of the knob as the predetermined number of bins. That is, the granularity setting unit 71 outputs the number of bins associated with the position of the knob as the predetermined number of bins to the similarity calculation unit 5, and the similarity calculation unit 5 The above-described processing of step S5 is performed based on the number of.

なお、図15の例では、スライダーバーの両端に、所定のビンの数を所定の大きさに設定可能なボタンが表示されている。「よりおおまか」のボタンには、「より詳細」のボタンに対応付けられているビンの数の大きさよりも小さなビンの数が対応付けられているとする。   In the example of FIG. 15, buttons capable of setting a predetermined number of bins to a predetermined size are displayed at both ends of the slider bar. Assume that the “more rough” button is associated with a number of bins smaller than the number of bins associated with the “more detailed” button.

ユーザがポインティングデバイスにより「よりおおまか」のボタンをクリックすると、「よりおおまか」のボタンに対応付けられている大きさのビンの数の分だけ、その時点で設定されている第1の所定のビンの数(例えば、その時点でスライダーバーがのつまみが置かれている位置に対応する第1の所定のビンの数)より小さなビンの数を第2の所定のビンの数として類似性計算部5に出力し、類似性計算部5は、入力された所定のビンの数に基づいて上記説明したステップS5の処理を行う。「よりおおまか」のボタンがクリックされると、スライドバーのつまみが第2の所定のビンの数に対応する位置に自動的に移動するようにしてもよい。   When the user clicks the “more rough” button with the pointing device, the first predetermined bin set at that time is the same as the number of bins of the size associated with the “more rough” button. The similarity calculation unit uses the number of bins smaller than the number of bins (for example, the number of first predetermined bins corresponding to the position at which the slider bar is currently located) as the second predetermined number of bins. The similarity calculation unit 5 performs the process of step S5 described above based on the input number of predetermined bins. When the “more rough” button is clicked, the slider of the slide bar may be automatically moved to a position corresponding to the second predetermined number of bins.

また、ユーザがポインティングデバイスにより「より詳細」のボタンをクリックすると、「より詳細」のボタンに対応付けられている大きさのビンの数のだけ、その時点で設定されている第3の所定のビンの数(例えば、その時点でスライダーバーがのつまみが置かれている位置に対応する第3の所定のビンの数)より大きなビンの数を第4の所定のビンの数として類似性計算部5に出力し、類似性計算部5は、入力された所定のビンの数に基づいて上記説明したステップS5の処理を行う。「より詳細」のボタンがクリックされると、スライドバーのつまみが第4の所定のビンの数に対応する位置に自動的に移動するようにしてもよい。   Further, when the user clicks the “more details” button with the pointing device, the third predetermined number set at that time is the same as the number of bins having the size associated with the “more details” button. Similarity calculation with the number of bins larger than the number of bins (for example, the third predetermined number of bins corresponding to the position where the slider bar is currently positioned) as the fourth predetermined number of bins The similarity calculation unit 5 performs the process of step S5 described above based on the input number of predetermined bins. When the “more details” button is clicked, the slider of the slide bar may be automatically moved to a position corresponding to the number of the fourth predetermined bin.

また、図16に示すように、「ストーリー展開が似ている絵本」の中にプルダウンメニューがあり、このプルダウンメニューにより所望のビンの数を設定可能であってもよい。図16の例では、プルダウンメニューにより「おおまか」「詳細」という項目が展開されている。「おおまか」の項目には、「詳細」の項目に対応付けられているビンの数の大きさよりも小さなビンの数が対応付けられているとする。   Also, as shown in FIG. 16, there is a pull-down menu in “picture book with similar story development”, and the desired number of bins may be set by this pull-down menu. In the example of FIG. 16, items “Rough” and “Details” are expanded from the pull-down menu. It is assumed that the number of bins smaller than the number of bins associated with the “detail” item is associated with the item “Roughly”.

ユーザがポインティングデバイスにより、プルダウンメニューの中から「おおまか」の項目を選択すると、「おおまか」の項目に対応付けられているビンの数を所定のビンの数として類似性計算部5の処理が行われる。すなわち、粒度設定部71は、「おおまか」の項目に対応付けられているビンの数を所定のビンの数として類似性計算部5に出力し、類似性計算部5は、入力された所定のビンの数に基づいて上記説明したステップS5の処理を行う。   When the user selects the item “Rough” from the pull-down menu by using the pointing device, the similarity calculation unit 5 performs processing with the number of bins associated with the “Rough” item as the predetermined number of bins. Is called. That is, the granularity setting unit 71 outputs the number of bins associated with the item “Rough” to the similarity calculation unit 5 as the number of predetermined bins, and the similarity calculation unit 5 Based on the number of bins, the process of step S5 described above is performed.

また、ユーザがポインティングデバイスにより、プルダウンメニューの中から「詳細」の項目を選択すると、「詳細」の項目に対応付けられているビンの数を所定のビンの数として類似性計算部5の処理が行われる。すなわち、粒度設定部71は、「詳細」の項目に対応付けられている数を所定のビンの数として類似性計算部5に出力し、類似性計算部5は、入力された所定のビンの数に基づいて上記説明したステップS5の処理を行う。   Further, when the user selects the “detail” item from the pull-down menu by using the pointing device, the similarity calculation unit 5 performs processing using the number of bins associated with the “detail” item as the predetermined number of bins. Is done. That is, the granularity setting unit 71 outputs the number associated with the item “details” to the similarity calculation unit 5 as the number of predetermined bins, and the similarity calculation unit 5 The process of step S5 described above is performed based on the number.

図14から図16を用いて説明したように、検索前にユーザが粒度設定部71を用いて所定のビンの数を設定可能であってもよい。   As described with reference to FIGS. 14 to 16, the user may be able to set a predetermined number of bins using the granularity setting unit 71 before the search.

一方、図9及び図17を用いて以下に説明するように、検索前はユーザが粒度設定部71を用いて所定のビンの数を設定可能ではなく予め定められたビンの数を所定のビンの数として検索が行われるが、検索後は類似文書検索結果の表示画面に表示された粒度設定部71を用いてユーザが所定のビンの数を設定可能であってもよい。   On the other hand, as will be described below with reference to FIGS. 9 and 17, the user cannot set a predetermined number of bins using the granularity setting unit 71 before the search, but sets a predetermined number of bins before the search. However, after the search, the user may be able to set a predetermined number of bins using the granularity setting unit 71 displayed on the similar document search result display screen.

図9に示すように、「ストーリー展開が似ている絵本」の中に「おおまか」「詳細」というボタンがなくてもよい。この場合、「ストーリー展開が似ている絵本」のボタンをクリックすると、予め定められたビンの数を所定のビンの数として類似性計算部5の処理が行われる。すなわち、粒度設定部71は、予め定められたビンの数を所定のビンの数として類似性計算部5に出力し、類似性計算部5は、入力された所定のビンの数に基づいて上記説明したステップS5の処理を行う。   As shown in FIG. 9, there is no need for the buttons “Roughly” and “Details” in “Picture books with similar story development”. In this case, when the button of “picture book with similar story development” is clicked, the similarity calculation unit 5 performs processing with a predetermined number of bins as a predetermined number of bins. That is, the granularity setting unit 71 outputs a predetermined number of bins as a predetermined number of bins to the similarity calculation unit 5, and the similarity calculation unit 5 performs the above operation based on the input predetermined number of bins. The process of step S5 described is performed.

この場合、図17に示すように、表示部7の類似文書検索結果の表示画面に、所定のビンの数を設定可能なスライダーバーが表示されていてもよい。ユーザは、このスライダーバーのつまみをポインティングデバイスで移動させることにより、所定のビンの数を設定することができる。スライダーバーのつまみは、連続的に移動可能であってもよいし、所定の複数の位置のみに非連続的に移動可能となっていてもよい。この所定の複数の位置は、所定の複数のビンの数に対応している。スライダーバーのつまみの初期位置は、表示部7の類似文書検索結果を得る際に用いた所定のビンの数、言い換えれば所定のビンの数の初期値に対応しているとする。   In this case, as shown in FIG. 17, a slider bar capable of setting a predetermined number of bins may be displayed on the similar document search result display screen of the display unit 7. The user can set a predetermined number of bins by moving the knob of the slider bar with a pointing device. The slider bar slider may be continuously movable, or may be discontinuously movable only to a predetermined plurality of positions. The predetermined plurality of positions correspond to the predetermined number of bins. It is assumed that the initial position of the slider bar knob corresponds to the predetermined number of bins used when obtaining the similar document search result of the display unit 7, in other words, the initial value of the predetermined number of bins.

図17の例では、スライダーバーの両端に、所定のビンの数を所定の数に設定可能なボタンが表示されている。「よりおおまか」のボタンには、「より詳細」のボタンに対応付けられているビンの数よりも小さなビンの数が対応付けられているとする。また、「よりおおまか」のボタンには所定のビンの数の初期値よりも小さなビンの数が対応付けられており、「より詳細」のボタンには所定のビンの数の初期値よりも大きなビンの数が対応付けられているとする。このように、互いに異なる大きさのビンの数が対応付けられている少なくとも1つのボタンが表示部7に表示されていてもよい。   In the example of FIG. 17, buttons that can set the number of predetermined bins to a predetermined number are displayed at both ends of the slider bar. Assume that the “more rough” button is associated with a smaller number of bins than the number of bins associated with the “more detailed” button. Further, the “more rough” button is associated with a smaller number of bins than the initial value of the predetermined number of bins, and the “more detailed” button is larger than the initial value of the predetermined number of bins. Assume that the number of bins is associated. Thus, at least one button associated with the number of bins having different sizes may be displayed on the display unit 7.

スライダーバー又はボタンにより所定のビンの数を設定した場合には、設定後の所定のビンの数に対応する類似文書検索結果がリアルタイムに表示されてもよい。すなわち、粒度設定部71による設定前の所定のビンの数を第一の所定のビンの数とし、粒度設定部71による設定後の所定のビンの数を第二の所定のビンの数として、表示部7は、粒度設定部71による設定前の第一の所定のビンの数に基づく第一の類似文書検索結果を表示するとともに、粒度設定部71による設定後の第二の所定のビンの数に基づく第二の類似文書検索結果を表示してもよい。これにより、ユーザは、粒度設定部71による設定後の所定のビンの数が、適切なものであったかどうかを確認することができる。   When the predetermined number of bins is set by the slider bar or button, the similar document search result corresponding to the predetermined number of bins after the setting may be displayed in real time. That is, the number of predetermined bins before setting by the granularity setting unit 71 is the number of first predetermined bins, and the number of predetermined bins after setting by the granularity setting unit 71 is the number of second predetermined bins. The display unit 7 displays the first similar document search result based on the number of first predetermined bins before the setting by the granularity setting unit 71 and the second predetermined bin after the setting by the granularity setting unit 71 A second similar document search result based on the number may be displayed. Thereby, the user can confirm whether the number of the predetermined bins after the setting by the granularity setting unit 71 is appropriate.

なお、図17の表示において、ユーザがポインティングデバイスでクエリとの類似性が高い文書として表示されている文書のうちの1つををロールオーバー又は選択すると、その類似性が高い文書の属性頻度系列情報が類似文書検索結果として表示される。また、図17の表示において、検索のクエリとなる文書の属性頻度系列情報が類似文書検索結果として更に表示されている。   In the display of FIG. 17, when the user rolls over or selects one of the documents displayed as a document having high similarity to the query on the pointing device, the attribute frequency series of the document having high similarity. Information is displayed as a similar document search result. In the display of FIG. 17, the attribute frequency series information of the document that is the search query is further displayed as a similar document search result.

なお、粒度設定部71による設定前の所定のビンの数を第一の所定のビンの数とし、粒度設定部71による設定後の所定のビンの数を第二の所定のビンの数として、表示部7は、第一の所定のビンの数により正規化された検索のクエリとなる文書の属性頻度系列情報であるヒストグラムと、第二の所定のビンの数により正規化された検索のクエリとなる文書の属性頻度系列情報であるヒストグラムとを並べて表示してもよい。例えば、表示部7の表示画面の左上に検索のクエリとなる文書の第一の所定のビンの数により正規化された属性頻度系列情報であるヒストグラムが表示され、表示部7の表示画面の左下に同一文書の第二の所定のビンの数により正規化された属性頻度系列情報であるヒストグラムが表示されてもよい。   The number of predetermined bins before setting by the granularity setting unit 71 is the number of first predetermined bins, and the number of predetermined bins after setting by the particle size setting unit 71 is the number of second predetermined bins. The display unit 7 includes a histogram that is attribute frequency series information of a document that is a search query normalized by the number of first predetermined bins, and a search query normalized by the number of second predetermined bins. A histogram that is attribute frequency series information of the document to be displayed may be displayed side by side. For example, a histogram that is attribute frequency series information normalized by the number of first predetermined bins of the document that is the search query is displayed on the upper left of the display screen of the display unit 7, and the lower left of the display screen of the display unit 7 A histogram which is attribute frequency series information normalized by the number of second predetermined bins of the same document may be displayed.

粒度設定部71による設定前の第一の所定のビンの数に基づく類似文書検索結果を第一の類似文書検索結果とし、粒度設定部71による設定後の第二のビンの数に基づく類似文書検索結果を第二の類似文書検索結果としたとき、ユーザがポインティングデバイスで第二の類似文書検索結果に含まれる類似性が高い文書をロールオーバー又は選択すると、選択された類似性が高い文書の属性頻度系列情報が表示されてもよい。ユーザは、異なるビンの数に基づく、検索のクエリとなる文書の属性頻度系列情報であるヒストグラムを同時に把握することができるため、設定後の所定のビンの数が適切なものであったかどうかを更に容易に確認することができる。   The similar document search result based on the number of first predetermined bins before setting by the granularity setting unit 71 is set as the first similar document search result, and the similar document based on the number of second bins after setting by the granularity setting unit 71 When the search result is the second similar document search result, when the user rolls over or selects a document with high similarity included in the second similar document search result with the pointing device, the selected high similarity document is selected. Attribute frequency series information may be displayed. Since the user can simultaneously grasp the histogram that is the attribute frequency series information of the document that is the search query based on the number of different bins, it is further determined whether the predetermined number of bins after setting is appropriate. It can be easily confirmed.

なお、この設定後の所定のビンの数に対応する類似文書検索結果の表示は、複数回行うことが可能であってもよい。すなわち、スライダーバー又はボタンにより所定のビンの数が設定される度ごとに、設定後の所定のビンの数に対応する類似文書検索結果が、粒度設定部71による設定前の類似文書検索結果と共にリアルタイムに表示されてもよい。   Note that the display of the similar document search result corresponding to the predetermined number of bins after the setting may be performed a plurality of times. That is, every time a predetermined number of bins is set by the slider bar or button, the similar document search result corresponding to the predetermined number of bins after setting is displayed together with the similar document search result before setting by the granularity setting unit 71. It may be displayed in real time.

なお、図17において、スライダーバーとボタンから構成された粒度設定部71に代えて、ボタンのみ、又は、プルダウンメニューで構成された粒度設定部71が設けられており、このボタンのみ、又は、プルダウンメニューで構成された粒度設定部71でユーザが所定のビンの数を設定可能であってもよい。   In FIG. 17, instead of the granularity setting unit 71 composed of a slider bar and a button, only a button or a granularity setting unit 71 composed of a pull-down menu is provided. The user may be able to set a predetermined number of bins with a granularity setting unit 71 configured with a menu.

なお、図14から図16を用いて説明したように、検索前にユーザが粒度設定部71を用いて所定のビンの数を設定可能である場合においても、図17を用いて説明したのと同様の方法により類似文書検索結果の表示画面に表示された粒度設定部71を用いてユーザが所定のビンの数を設定可能であってもよい。   As described with reference to FIGS. 14 to 16, even when the user can set a predetermined number of bins using the granularity setting unit 71 before the search, it has been described with reference to FIG. 17. The user may be able to set a predetermined number of bins using the granularity setting unit 71 displayed on the similar document search result display screen by a similar method.

<変形例3>
なお、粒度設定部71は、所定の単位及び所定のビンの数の両方を設定可能であってもよい。
<Modification 3>
Note that the granularity setting unit 71 may be capable of setting both a predetermined unit and a predetermined number of bins.

例えば、S個の所定の単位をi(1),…,i(S)とし、S個の所定のビンの数をj(1),…,j(S)として、所定の単位と所定のビンの数の組(i(s),j(s))(s=1,…,S)が予め定められているとする。   For example, S predetermined units are i (1),..., I (S), and S predetermined bins are j (1),..., J (S). Assume that a set of bin numbers (i (s), j (s)) (s = 1,..., S) is predetermined.

図14から図18を用いて説明した「おおまか」「詳細」等のボタン、スライダーバー及びプルダウンメニューには、所定の単位と所定のビンの数の組(i(s),j(s))(s=1,…,S)が対応付けられており、ユーザが、ボタン、スライダーバー及びプルダウンメニューをポインティングデバイスで操作することにより、所定の単位と所定のビンの数の組(i(s),j(s))を選択可能であってもよい。   The buttons, slider bar, and pull-down menu described with reference to FIGS. 14 to 18 include a predetermined unit and a predetermined number of bins (i (s), j (s)). (s = 1,..., S) are associated with each other, and the user operates a button, slider bar, and pull-down menu with a pointing device to set a predetermined unit and a predetermined number of bins (i (s ), j (s)) may be selectable.

粒度設定部71は、ユーザにより所定の単位と所定のビンの数の組(i(s),j(s))が選択されると、その選択された所定の単位i(s)と所定のビンの数j(s)についての情報を、類似性計算部5に出力する。類似性計算部5は、属性頻度系列情報記憶部4に記憶されている属性頻度系列情報の中の、選択された所定の単位i(s)を所定の単位とする属性頻度系列情報と、所定のビンの数j(s)とに基づいてステップS5の処理を行う。   When the user selects a set of a predetermined unit and a predetermined number of bins (i (s), j (s)) by the user, the granularity setting unit 71 and the selected predetermined unit i (s) Information about the number of bins j (s) is output to the similarity calculation unit 5. The similarity calculation unit 5 includes attribute frequency sequence information having a predetermined unit i (s) selected among the attribute frequency sequence information stored in the attribute frequency sequence information storage unit 4 as a predetermined unit, The process of step S5 is performed based on the number of bins j (s).

変形例1から変形例3をまとめると、粒度設定部71は、所定の単位及び所定のビンの数の少なくとも一方を設定可能であると言える。   Summarizing Modifications 1 to 3, it can be said that the granularity setting unit 71 can set at least one of a predetermined unit and a predetermined number of bins.

<変形例4>
粒度設定部71は、例えば図11を用いて説明した方法によりユーザが描写した属性頻度系列情報を表す曲線の傾きの変化率が大きいほど、所定の単位として小さな値又は所定のビンの数として大きな値を設定するものであってもよい。
<Modification 4>
For example, the granularity setting unit 71 increases as the predetermined unit has a smaller value or a predetermined number of bins as the change rate of the slope of the curve representing the attribute frequency series information depicted by the user by the method described with reference to FIG. 11 increases. A value may be set.

例えば、ユーザが描写した属性頻度系列情報を表す曲線が、図19の曲線であったとする。図19の横軸はページ番号であり、縦軸は上に行くほどpositive度合いが高く下に行くほどnegative度合いが低くなるようなスコアを意味するとする。このようなユーザが描写した属性頻度系列情報を表す曲線の中の最も急峻な傾きを持つ山谷は、ユーザに描かれた以上は意味があるはずなので、その山谷の傾きの急峻さに応じて、所定の単位又は所定のビンの数を設定する。これにより、よりユーザニーズにあった検索を行うことができると考えられる。   For example, it is assumed that the curve representing the attribute frequency series information drawn by the user is the curve of FIG. In FIG. 19, the horizontal axis represents the page number, and the vertical axis represents a score that has a higher positive degree as it goes up and a negative degree as it goes down. The mountain valley with the steepest slope in the curve representing the attribute frequency series information drawn by such a user should be more meaningful than drawn by the user, so according to the steepness of the slope of the mountain valley, A predetermined unit or a predetermined number of bins is set. As a result, it is considered that a search suitable for the user needs can be performed.

例えば、ユーザが描写した曲線の始点から終点までの距離をXとし、ユーザが描写した曲線の極大値から極小値までの距離の中で最も小さいものをΔxとし、Δx以下の値をΔx'として、粒度設定部71は、X/Δx'を切り上げた値を例えばビンの数とする。   For example, the distance from the start point to the end point of the curve drawn by the user is X, the smallest distance from the maximum value to the minimum value of the curve drawn by the user is Δx, and the value below Δx is Δx ′. The particle size setting unit 71 sets the value obtained by rounding up X / Δx ′ as the number of bins, for example.

また、異なる所定の単位ごとに、セグメントの総数Sの平均値が計算されているとして、粒度設定部71は、X/Δx'を切り上げた値に最も近い、セグメントの総数Sの平均値に対応する所定の単位を所定の単位としてもよい。   Further, assuming that the average value of the total number S of segments is calculated for each different predetermined unit, the granularity setting unit 71 corresponds to the average value of the total number S of segments that is closest to the value obtained by rounding up X / Δx ′. The predetermined unit may be a predetermined unit.

このように、粒度設定部71は、ユーザが描写した属性頻度系列情報を表す曲線の中の最も急峻な傾きを持つ山谷を反映できる細かさで所定の単位又は所定のビンの数を設定してもよい。   As described above, the granularity setting unit 71 sets a predetermined unit or a predetermined number of bins with such a fineness that can reflect a mountain and valley having the steepest slope in the curve representing the attribute frequency series information drawn by the user. Also good.

粒度設定部71は、設定された所定の単位と所定のビンの数についての情報を、類似性計算部5に出力する。類似性計算部5は、属性頻度系列情報記憶部4に記憶されている属性頻度系列情報の中の、設定された所定の単位に対応する属性頻度系列情報と、設定された所定のビンの数とに基づいてステップS5の処理を行う。   The granularity setting unit 71 outputs information about the set predetermined unit and the predetermined number of bins to the similarity calculation unit 5. The similarity calculation unit 5 includes the attribute frequency series information corresponding to the set predetermined unit in the attribute frequency series information stored in the attribute frequency series information storage unit 4, and the set number of predetermined bins. Based on the above, the process of step S5 is performed.

<変形例5>
粒度設定部71は、クエリとなる文書に応じて所定の単位及び所定のビンの数を定めてもよい。例えば、クエリとなる文書ごとに、所定の単位及び所定のビンの数が定められているとする。例えば、クエリとなる文書が属する、絵本、児童書、ドキュメントファイル等のカテゴリごとに、所定の単位及び所定のビンの数が定められているとする。
<Modification 5>
The granularity setting unit 71 may determine a predetermined unit and a predetermined number of bins according to a document to be a query. For example, it is assumed that a predetermined unit and a predetermined number of bins are determined for each document serving as a query. For example, it is assumed that a predetermined unit and a predetermined number of bins are determined for each category such as a picture book, a children's book, and a document file to which a document to be queried belongs.

粒度設定部71は、クエリとなる文書が入力されると、その入力されたクエリとなる文書に対応する所定の単位及び所定のビンの数を読み込み、読み込んだ所定の単位及び所定のビンの数についての情報を、類似性計算部5に出力する。類似性計算部5は、属性頻度系列情報記憶部4に記憶されている属性頻度系列情報の中の、設定された所定の単位に対応する属性頻度系列情報と、設定された所定のビンの数とに基づいてステップS5の処理を行う。   When a query document is input, the granularity setting unit 71 reads a predetermined unit and a predetermined number of bins corresponding to the input query document, and reads the read predetermined unit and the predetermined number of bins. Is output to the similarity calculation unit 5. The similarity calculation unit 5 includes the attribute frequency series information corresponding to the set predetermined unit in the attribute frequency series information stored in the attribute frequency series information storage unit 4, and the set number of predetermined bins. Based on the above, the process of step S5 is performed.

<変形例6>
また、所定の単位及び所定のビンの数は、ユーザがクエリとなる文書を入力する際に、粒度設定部71を操作することにより手動で設定可能であってもよい。
<Modification 6>
The predetermined unit and the predetermined number of bins may be manually set by operating the granularity setting unit 71 when the user inputs a document to be a query.

粒度設定部71は、所定の単位及び所定のビンの数が設定されると、設定された所定の単位及び所定のビンの数についての情報を、類似性計算部5に出力する。類似性計算部5は、属性頻度系列情報記憶部4に記憶されている属性頻度系列情報の中の設定された所定の単位に対応する属性頻度系列情報と、設定された所定のビンの数とに基づいてステップS5の処理を行う。   When the predetermined unit and the predetermined number of bins are set, the granularity setting unit 71 outputs information about the set predetermined unit and the predetermined number of bins to the similarity calculation unit 5. The similarity calculation unit 5 includes attribute frequency series information corresponding to a predetermined unit set in the attribute frequency series information stored in the attribute frequency series information storage unit 4, a set number of predetermined bins, The process of step S5 is performed based on the above.

<変形例7>
各単語に対応する属性の割り当てが定義されている第一の単語属性割当と、第一の単語属性割当とは異なる、各単語に対応する属性の割り当てが定義されている第二の単語属性割当とがあるとする。
<Modification 7>
A first word attribute assignment in which an attribute assignment corresponding to each word is defined, and a second word attribute assignment in which an attribute assignment corresponding to each word is defined, which is different from the first word attribute assignment. Suppose that there is.

この場合、類似文書検索装置は、第一の単語属性割当に基づく検索により文書をフィルタリングした後に、第二の単語属性割当に基づく検索を行ってもいよい。例えば、第一の単語属性割当の種別と第二の単語属性割当の種別が異なるように、第一の単語属性割当及び第二の単語属性割当を設定する。例えば、第一の単語属性割当を「喜」「怒」「哀」「楽」の極性を用いた割り当てとし、第二の単語属性割当を参考文献5に記載されたトピックモデルを用いたトピック抽出の手法を用いた割り当てとする。これにより、異なる観点から検索結果を絞り込むことができる。   In this case, the similar document search device may perform the search based on the second word attribute assignment after filtering the document by the search based on the first word attribute assignment. For example, the first word attribute assignment and the second word attribute assignment are set so that the type of the first word attribute assignment and the type of the second word attribute assignment are different. For example, the first word attribute assignment is assigned using the polarities of “joy”, “anger”, “sorrow”, and “easy”, and the second word attribute assignment is the topic extraction using the topic model described in Reference 5. Allocation using the method of Thereby, search results can be narrowed down from different viewpoints.

すなわち、第一の単語属性割当に基づく各単語の属性と、第二の単語属性割当に基づく各単語の属性とが単語属性記憶部2に記憶されているとして、類似文書検索装置は、単語属性記憶部2から読み込んだ第一の単語属性割当に基づく単語の属性に基づいて属性頻度系列情報生成部3、類似性計算部5及び類似文書情報出力部6の処理を行うことにより仮の類似文書を得た後に、その仮の類似文書を対象として、単語属性記憶部2から読み込んだ第二の単語属性割当に基づく単語の属性に基づいて属性頻度系列情報生成部3、類似性計算部5及び類似文書情報出力部6の処理を行うことにより最終的な類似文書検索結果を得てもよい。   That is, assuming that the attribute of each word based on the first word attribute assignment and the attribute of each word based on the second word attribute assignment are stored in the word attribute storage unit 2, the similar document search device A temporary similar document is obtained by performing processing of the attribute frequency series information generation unit 3, the similarity calculation unit 5, and the similar document information output unit 6 based on the attribute of the word based on the first word attribute assignment read from the storage unit 2. After obtaining the temporary similarity document, the attribute frequency series information generation unit 3, the similarity calculation unit 5, and the like based on the word attributes based on the second word attribute assignment read from the word attribute storage unit 2 A final similar document search result may be obtained by performing processing of the similar document information output unit 6.

なお、ユーザが第一の単語属性割当及び第二の単語属性割当のそれぞれを選択可能であってもよい。これにより、第二の単語属性割当よりも第一の単語属性割当を重視した検索が可能となる。また、第一の単語属性割当による検索により提示された文書の数が多い場合には、第二の単語属性割当による検索を行うことにより、第二の単語属性割当の観点から絞り込みを行うことができる。これにより、ユーザがより所望の検索を行うことができる。   The user may be able to select each of the first word attribute assignment and the second word attribute assignment. As a result, it is possible to perform a search in which the first word attribute assignment is more important than the second word attribute assignment. In addition, when the number of documents presented by the search by the first word attribute assignment is large, it is possible to narrow down from the viewpoint of the second word attribute assignment by performing the search by the second word attribute assignment. it can. Thereby, the user can perform a more desired search.

<変形例8>
単語抽出部1及び属性頻度系列情報生成部3の処理は、類似性計算部5、類似文書情報出力部6及び表示部7の処理に先だって行われてもよいし、単語抽出部1及び属性頻度系列情報生成部3の処理と、類似性計算部5、類似文書情報出力部6及び表示部7の処理とが同時並行的に行われてもよい。
<Modification 8>
The processing of the word extraction unit 1 and the attribute frequency series information generation unit 3 may be performed prior to the processing of the similarity calculation unit 5, the similar document information output unit 6, and the display unit 7, or the word extraction unit 1 and the attribute frequency The processing of the sequence information generation unit 3 and the processing of the similarity calculation unit 5, the similar document information output unit 6, and the display unit 7 may be performed in parallel.

また、単語抽出部1、単語属性記憶部2及び属性頻度系列情報生成部3を用いて行われるステップS1からステップS3の処理は、類似性の計算及び類似文書の検索に先立つ前処理である。このため、類似性計算装置20及び類似文書検索装置は、図1において一点鎖線で囲まれた単語抽出部1、単語属性記憶部2及び属性頻度系列情報生成部3を備えていなくてもよい。また、類似性計算方法及び類似文書検索方法は、図2において一点鎖線で囲まれたステップS1及びステップS3の処理を有していなくてもよい。   The processing from step S1 to step S3 performed using the word extraction unit 1, the word attribute storage unit 2, and the attribute frequency series information generation unit 3 is preprocessing prior to similarity calculation and similar document search. For this reason, the similarity calculation device 20 and the similar document search device may not include the word extraction unit 1, the word attribute storage unit 2, and the attribute frequency series information generation unit 3 surrounded by a dashed line in FIG. Further, the similarity calculation method and the similar document search method may not include the processing of step S1 and step S3 surrounded by a one-dot chain line in FIG.

言い換えれば、類似性計算装置20は、属性頻度系列情報記憶部4及び類似性計算部5のみを備えていてもよい。また、類似文書検索装置は、属性頻度系列情報記憶部4、類似性計算部5、類似文書情報出力部6及び表示部7のみを備えていてもよい。また、類似性計算方法は、ステップS5の処理のみを有していてもよい。また、類似文書検索方法は、ステップS5からステップS7の処理のみを有していてもよい。   In other words, the similarity calculation device 20 may include only the attribute frequency series information storage unit 4 and the similarity calculation unit 5. Further, the similar document search apparatus may include only the attribute frequency series information storage unit 4, the similarity calculation unit 5, the similar document information output unit 6, and the display unit 7. Moreover, the similarity calculation method may have only the process of step S5. Further, the similar document search method may include only the processing from step S5 to step S7.

これらの場合、属性頻度系列情報記憶部4には、類似性計算装置20及び類似文書検索装置とは異なる装置に設けられた単語抽出部1、単語属性記憶部2及び属性頻度系列情報生成部3により生成された属性頻度系列情報が予め記憶されているとする。   In these cases, the attribute frequency series information storage unit 4 includes a word extraction unit 1, a word attribute storage unit 2, and an attribute frequency series information generation unit 3 provided in a device different from the similarity calculation device 20 and the similar document search device. Assume that the attribute frequency series information generated by is stored in advance.

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。   Needless to say, other modifications are possible without departing from the spirit of the present invention.

<プログラム及び記録媒体>
類似文書検索装置又は類似性計算装置20の各部における処理をコンピュータによって実現する場合、類似文書検索装置又は類似性計算装置20の各部がが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各部の処理がコンピュータ上で実現される。
<Program and recording medium>
When the processing in each part of the similar document search apparatus or similarity calculation apparatus 20 is realized by a computer, the processing contents of the functions that each part of the similar document search apparatus or similarity calculation apparatus 20 should have are described by a program. Then, by executing this program on a computer, the processing of each part is realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.

また、各部の処理は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理の少なくとも一部をハードウェア的に実現することとしてもよい。   The processing of each unit may be configured by executing a predetermined program on a computer, or at least a part of these processing may be realized by hardware.

1 単語抽出部
2 単語属性記憶部
3 属性頻度系列情報生成部
4 属性頻度系列情報記憶部
5 類似性計算部
6 類似文書情報出力部
7 表示部
71 粒度設定部
72 入力部
8 属性割当部
20 類似性計算装置
DESCRIPTION OF SYMBOLS 1 Word extraction part 2 Word attribute storage part 3 Attribute frequency series information generation part 4 Attribute frequency series information storage part 5 Similarity calculation part 6 Similar document information output part 7 Display part 71 Granularity setting part 72 Input part 8 Attribute assignment part 20 Similarity Sex calculator

Claims (12)

文書はその文書を所定の単位で分割することにより得られる複数のセグメントにより構成されているとし、文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度の系列を表す情報を属性頻度系列情報として、
ユーザにより選択又は描画された属性頻度系列情報の入力を受け付ける入力部と、
上記入力された属性頻度系列情報と類似度が高い属性頻度系列情報を有する文書についての情報を類似文書検索結果として表示する表示部と、
を含む類似文書検索装置。
A document is assumed to be composed of a plurality of segments obtained by dividing the document into predetermined units, and information indicating a frequency series of attributes corresponding to words included in each of the plurality of segments constituting the document is provided. As attribute frequency series information,
An input unit for receiving input of attribute frequency series information selected or drawn by the user;
A display unit that displays information about a document having attribute frequency series information having high similarity to the input attribute frequency series information as a similar document search result;
Similar document search device including
請求項1の類似文書検索装置において、
上記所定の単位を設定可能な粒度設定部を更に含む、
類似文書検索装置。
The similar document search device according to claim 1,
A particle size setting unit capable of setting the predetermined unit;
Similar document search device.
請求項1の類似文書検索装置において、
上記属性頻度系列情報は、上記文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度の系列を表すヒストグラムであるとし、互いの類似度を計算する2個の属性頻度系列情報であるヒストグラムのビンの数が所定のビンの数になるように上記互いの類似度を計算する2個の属性頻度系列情報であるヒストグラムが正規化され、正規化されたヒスグラムに基づいて上記2個の類似度が計算されるとして、
上記所定のビンの数を設定可能な粒度設定部を更に含む、
類似文書検索装置。
The similar document search device according to claim 1,
The attribute frequency series information is a histogram representing a frequency series of attributes corresponding to words included in each of a plurality of segments constituting the document, and two attribute frequency series information for calculating a similarity between each other Histograms that are two pieces of attribute frequency series information for calculating the degree of similarity of each other so that the number of bins of the histogram is the predetermined number of bins are normalized, and the above 2 based on the normalized hisgram As the similarity is calculated,
A particle size setting unit capable of setting the number of the predetermined bins;
Similar document search device.
請求項2又は3の類似文書検索装置において、
上記粒度設定部は、上記表示部に表示された、互いに異なる単位又はビンの数が対応付けられている少なくとも1つのボタン又はプルダウンメニューである、
類似文書検索装置。
The similar document search device according to claim 2 or 3,
The granularity setting unit is at least one button or pull-down menu associated with a different unit or number of bins displayed on the display unit.
Similar document search device.
請求項2又は3の類似文書検索装置において、
上記粒度設定部は、上記表示部に表示されたスライダーバーである、
類似文書検索装置。
The similar document search device according to claim 2 or 3,
The particle size setting unit is a slider bar displayed on the display unit.
Similar document search device.
請求項5の類似文書検索装置において、
上記粒度設定部は、上記表示部に表示された、互いに異なる大きさの単位又はビンの数が対応付けられている少なくとも1つのボタン又はプルダウンメニューを更に含んでいる、
類似文書検索装置。
The similar document search device according to claim 5,
The granularity setting unit further includes at least one button or pull-down menu that is displayed on the display unit and associated with units of different sizes or the number of bins.
Similar document search device.
請求項1の類似文書検索装置において、
上記入力部により受け付けられた属性頻度系列情報が曲線である場合において、属性頻度系列情報を表す曲線の傾きの変化率が大きいほど、上記所定の単位として小さな値又は上記所定のビンの数として大きな値を設定する粒度設定部を更に含む、
類似文書検索装置。
The similar document search device according to claim 1,
When the attribute frequency series information received by the input unit is a curve, the smaller the change rate of the slope of the curve representing the attribute frequency series information, the larger the smaller value as the predetermined unit or the larger the predetermined number of bins. It further includes a granularity setting unit for setting a value.
Similar document search device.
請求項2から7の何れかの類似文書検索装置において、
上記表示部は、上記粒度設定部による設定前の類似文書検索結果を表示するとともに、上記粒度設定部による設定後の類似文書検索結果を表示する、
類似文書検索装置。
The similar document search device according to any one of claims 2 to 7,
The display unit displays the similar document search result before setting by the granularity setting unit, and displays the similar document search result after setting by the granularity setting unit.
Similar document search device.
請求項2から7の何れかの類似文書検索装置において、
上記表示部は、上記粒度設定部による設定前の類似文書検索結果を表示するとともに、その設定前の類似文書検索結果を見たユーザの操作により上記粒度設定部の上記所定の単位又は上記所定のビンの数の設定がされた場合には、その設定後の類似文書検索結果を表示する、
類似文書検索装置。
The similar document search device according to any one of claims 2 to 7,
The display unit displays the similar document search result before setting by the granularity setting unit, and the predetermined unit of the granularity setting unit or the predetermined unit by an operation of a user who viewed the similar document search result before setting. When the number of bins is set, the similar document search result after the setting is displayed.
Similar document search device.
請求項1から9の何れかの類似文書検索装置において、
上記表示部は、上記入力された属性頻度系列情報と類似度が高い属性頻度系列情報を有する文書の中の、ポインティングデバイスでユーザがロールオーバー又は選択した文書の属性頻度系列情報と、上記ユーザにより選択又は描画された属性頻度系列情報とを上記類似文書検索結果として更に表示する、
類似文書検索装置。
The similar document search device according to any one of claims 1 to 9,
The display unit includes attribute frequency series information of a document that the user has rolled over or selected with a pointing device in a document having attribute frequency series information having high similarity to the input attribute frequency series information, and the user The selected or drawn attribute frequency series information is further displayed as the similar document search result.
Similar document search device.
文書はその文書を所定の単位で分割することにより得られる複数のセグメントにより構成されているとし、文書を構成する複数のセグメントのそれぞれに含まれる単語に対応する属性の頻度の系列を表す情報を属性頻度系列情報として、
入力部が、ユーザにより選択又は描画された属性頻度系列情報の入力を受け付ける入力ステップと、
表示部が、上記入力された属性頻度系列情報と類似度が高い属性頻度系列情報を有する文書についての情報を類似文書検索結果として表示する表示ステップと、
を含む類似文書検索方法。
A document is assumed to be composed of a plurality of segments obtained by dividing the document into predetermined units, and information indicating a frequency series of attributes corresponding to words included in each of the plurality of segments constituting the document is provided. As attribute frequency series information,
An input step for receiving an input of attribute frequency series information selected or drawn by the user;
A display step for displaying information about a document having attribute frequency series information having a high similarity to the input attribute frequency series information as a similar document search result;
Similar document search method including
請求項1から10の何れかの類似文書検索装置の各部としてコンピュータを機能させるためのプログラム。
The program for functioning a computer as each part of the similar document search apparatus in any one of Claim 1 to 10.
JP2017123990A 2017-06-26 2017-06-26 Similar document search device, similar document search method and program Active JP6612291B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017123990A JP6612291B2 (en) 2017-06-26 2017-06-26 Similar document search device, similar document search method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017123990A JP6612291B2 (en) 2017-06-26 2017-06-26 Similar document search device, similar document search method and program

Publications (2)

Publication Number Publication Date
JP2019008573A true JP2019008573A (en) 2019-01-17
JP6612291B2 JP6612291B2 (en) 2019-11-27

Family

ID=65026012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017123990A Active JP6612291B2 (en) 2017-06-26 2017-06-26 Similar document search device, similar document search method and program

Country Status (1)

Country Link
JP (1) JP6612291B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835960A (en) * 2021-02-26 2021-05-25 华侨大学 Data analysis method and system for digital exhibition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835960A (en) * 2021-02-26 2021-05-25 华侨大学 Data analysis method and system for digital exhibition
CN112835960B (en) * 2021-02-26 2022-07-01 华侨大学 Data analysis method and system for digital exhibition

Also Published As

Publication number Publication date
JP6612291B2 (en) 2019-11-27

Similar Documents

Publication Publication Date Title
US10936824B2 (en) Detecting literary elements in literature and their importance through semantic analysis and literary correlation
US10896214B2 (en) Artificial intelligence based-document processing
JP6664784B2 (en) Display device
US10096145B2 (en) Method and system for assembling animated media based on keyword and string input
JP5512489B2 (en) File management apparatus and file management method
Anthony Visualisation in corpus-based discourse studies
US20120046937A1 (en) Semantic classification of variable data campaign information
JPWO2020208693A1 (en) Document information evaluation device, document information evaluation method, and document information evaluation program
JP5349699B1 (en) Document analysis apparatus and program
US11842154B2 (en) Visually correlating individual terms in natural language input to respective structured phrases representing the natural language input
JPH0484271A (en) Intra-information retrieval device
JP6092493B1 (en) Database management apparatus and method thereof
KR20200064490A (en) Server and method for automatically generating profile
JP6612291B2 (en) Similar document search device, similar document search method and program
Neves et al. Automatic content recommendation and aggregation according to scorm
JP6303669B2 (en) Document retrieval device, document retrieval system, document retrieval method, and program
JP2021086592A (en) Document information evaluation device and document information evaluation method, and document information evaluation program
JP2020067987A (en) Summary creation device, summary creation method, and program
JP6646014B2 (en) Similar document search device, similarity calculation device, their method and program
US8195458B2 (en) Open class noun classification
JP2019175212A (en) Information display device, article page generation device, information processing device, information display system, and program
KR101995315B1 (en) System and method for presenting fonts through retrieval
Beysolow II et al. Topic modeling and word embeddings
JP2014049044A (en) Content management device, content management system, content management method, program, and storage medium
JP7037778B2 (en) Search device and method

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20170707

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181114

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191023

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191030

R150 Certificate of patent or registration of utility model

Ref document number: 6612291

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150