JP2013239132A - Similarity computation device, similar program search device, and program therefor - Google Patents

Similarity computation device, similar program search device, and program therefor Download PDF

Info

Publication number
JP2013239132A
JP2013239132A JP2012113602A JP2012113602A JP2013239132A JP 2013239132 A JP2013239132 A JP 2013239132A JP 2012113602 A JP2012113602 A JP 2012113602A JP 2012113602 A JP2012113602 A JP 2012113602A JP 2013239132 A JP2013239132 A JP 2013239132A
Authority
JP
Japan
Prior art keywords
expression
text data
similarity
program
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012113602A
Other languages
Japanese (ja)
Other versions
JP5982174B2 (en
Inventor
Ichiro Yamada
一郎 山田
Masaru Miyazaki
勝 宮崎
Hideki Tanaka
英輝 田中
Hironori Furumiya
弘智 古宮
Hideki Sumiyoshi
英樹 住吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2012113602A priority Critical patent/JP5982174B2/en
Publication of JP2013239132A publication Critical patent/JP2013239132A/en
Application granted granted Critical
Publication of JP5982174B2 publication Critical patent/JP5982174B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a similarity computation device capable of properly evaluating similarity between texts even in the presence of inconsistent use of words therein, and a similar program search device.SOLUTION: A similarity computation device includes: an expression extraction unit which derives expression trend information, representing appearance trend of types of expressions, by extracting expressions from text data; an expression amplification unit which amplifies the expression trend information, extracted by the expression extraction unit, by extracting related expressions associated with the expressions extracted by the expression extraction unit by using a relationship between expressions and related expressions, and generates amplified expression trend information; and a similarity computation unit which computes similarity between first and second text data based on a relationship between first amplified expression trend information, output by the expression amplification unit based on the first text data entered to the expression extraction unit, and second amplified expression trend information output by the expression amplification unit based on the second text data entered to the expression extraction unit.

Description

本発明は、自然言語処理に関する。特に、本発明は、テキスト間の類似性を算出する類似度算出装置に関する。   The present invention relates to natural language processing. In particular, the present invention relates to a similarity calculation device that calculates the similarity between texts.

ある動画コンテンツ(放送番組等)に類似した他の動画コンテンツを探し出す際に、コンテンツに関する番組の概要文を用いて類似性を評価する技術が存在する。この技術の基礎となるのは、自然言語で書かれたテキスト間の類似性を客観的な数値で評価する手法である。例えば、特許文献1には、番組の概要文において使われている単語を抽出し、抽出された2つの単語集合の重複の度合いを指標として類似性を評価する技術が開示されている。なお、放送番組に関する概要文は、例えば、放送波で伝送されるEPG(電子番組表)のデータから取得することができる。   There is a technique for evaluating similarity using an outline of a program related to content when searching for other video content similar to a certain video content (such as a broadcast program). The basis of this technology is a method of evaluating the similarity between texts written in natural language with objective numerical values. For example, Patent Literature 1 discloses a technique for extracting a word used in a program summary sentence and evaluating similarity by using the degree of overlap between two extracted word sets as an index. In addition, the summary sentence regarding a broadcast program can be acquired from the data of EPG (electronic program guide) transmitted with a broadcast wave, for example.

特開2011−043908号公報JP 2011-043908 A

しかしながら、特許文献1等に記載されている従来技術では、表層的な単語の出現状況のみによって類似性を評価していた。つまり、従来技術では、表層的に同じ表記の単語のみを一致していると判断し、類似しているものの表記が異なる単語は別の単語と判断されるため、類似性を正当に評価するのに充分ではない場合もあった。使われる単語にも揺れがある場合に類似性を正当に評価できないことがある。使われる単語に揺れがある場合がその典型であり、例えば「地震」と「震災」は類似した単語だが、これらの2つの単語は、表層としては別の単語として扱われていた。また、テレビ等の放送番組の概要文に関しても、その他の一般的なテキストに関しても、テキスト全体の長さが短い場合には、表層に出現する単語の量が不十分であり、またテキスト長が短いが故に統計的に単語の出現傾向の揺れが生じ易い。   However, in the prior art described in Patent Document 1 and the like, the similarity is evaluated only by the appearance state of the surface word. In other words, in the prior art, only words with the same notation on the surface are judged to match, and words that are similar but have different notation are judged to be different words. Sometimes it was not enough. Similarity may not be legitimately evaluated when the words used are also shaken. A typical example is the use of shaking in the words used. For example, “earthquake” and “earthquake” are similar words, but these two words were treated as different words on the surface. In addition, regarding the summary sentences of broadcast programs such as television and other general texts, if the total length of the text is short, the amount of words appearing on the surface layer is insufficient, and the text length is too short. Because of its short length, the tendency of appearance of words tends to occur statistically.

これらのため、表記の揺れなどにより、テキスト間の類似性を正当に評価できない場合があるという問題があった。   For these reasons, there is a problem that the similarity between texts may not be properly evaluated due to fluctuations in notation.

本発明は、上記のような事情に鑑みて為されたものであり、テキスト長が短かったり、テキスト中に含まれる表記の揺れがあったりする場合(つまり、表層に出現する表現の傾向に偏りがある場合)にも、テキスト間の類似度を正当に評価することのできる類似度算出装置を提供する。また、そのような類似度算出装置を用いて特定の番組に類似する番組を、多数の番組から検索する類似番組検索装置を提供する。   The present invention has been made in view of the circumstances as described above. When the text length is short or the notation included in the text is shaken (that is, biased to the tendency of the expression appearing on the surface layer). There is also provided a similarity calculation device that can legitimately evaluate the similarity between texts. Further, there is provided a similar program search device that searches a program similar to a specific program from a large number of programs using such a similarity calculation device.

上記の課題を解決するため、本発明は、あらかじめ獲得した言語表現間の関係(ここでの関係とは、例えば、類似関係、因果関係、上位下位関係、属性関係など)を利用して、テキスト中の表現傾向を増幅する手段を用いる。また、増幅後の表現傾向同士を比較することにより、元のテキストの類似度を算出する手段を用いる。また、増幅後の表現傾向の精度を良くするために、元のテキストとの間の類似性が低い要素が増幅後の表現傾向に影響しないようにするためのフィルタリング手段を用いるようにしても良い。これらの手段を用いた複数の態様は、下記の通りである。   In order to solve the above problem, the present invention uses a relationship between language expressions acquired in advance (here, a relationship is, for example, a similarity relationship, a causal relationship, an upper-lower relationship, an attribute relationship, etc.) Use a means to amplify the expression tendency. Also, a means for calculating the similarity of the original text by comparing the expression tendencies after amplification is used. In addition, in order to improve the accuracy of the expression tendency after amplification, a filtering unit may be used to prevent an element having low similarity with the original text from affecting the expression tendency after amplification. . A plurality of modes using these means are as follows.

[1]本発明の一態様による類似度算出装置は、テキストデータから表現を抽出することによって前記表現の種類の出現傾向を表わす表現傾向情報を求める表現抽出部と、表現と前記表現に関連する関連表現との関係を用いて、前記表現抽出部によって抽出された表現に関連する前記関連表現を抽出することによって前記表現抽出部によって抽出された前記表現傾向情報を増幅し、増幅後表現傾向情報を出力する表現増幅部と、前記表現抽出部に入力される第1のテキストデータを元に前記表現増幅部から出力される第1の増幅後表現傾向情報と、前記表現抽出部に入力される第2のテキストデータを元に前記表現増幅部から出力される第2の増幅後表現傾向情報との間の関係に基づく、前記第1のテキストデータと前記第2のテキストデータとの間の類似度を算出する類似性算出部とを具備する。   [1] A similarity calculation apparatus according to an aspect of the present invention relates to an expression extraction unit that obtains expression tendency information representing an appearance tendency of the expression type by extracting an expression from text data, and the expression and the expression. Amplifying the expression tendency information extracted by the expression extraction unit by extracting the related expression related to the expression extracted by the expression extraction unit using the relationship with the related expression, and the amplified expression tendency information The expression amplifying unit for outputting, the first post-amplification expression tendency information output from the expression amplifying unit based on the first text data input to the expression extracting unit, and the input to the expression extracting unit The first text data and the second text data are based on the relationship between the second amplified expression tendency information output from the expression amplifying unit based on the second text data. Comprising a similarity calculating section for calculating a degree of similarity between the.

ここで、表現とは、原語による表現の要素である。表現とは、例えば、文字や、単語や、文節や、文字のNグラム(N個の連鎖)や、単語のNグラムなどである。
また、表現傾向情報とは、あるテキストデータ内でいかなる表現が出現する傾向があるかを表わすデータである。例えば、あるテキストデータ内に出現する表現をすべて列挙したデータは表現傾向情報である。また例えば、あるテキストデータ内に出現する表現ごとの出現頻度(回数)を表わすデータは表現傾向情報である。具体例としては、あるテキストデータ内に出現する単語をすべて抽出してコンマ「,」等で区切って列挙したデータは表現傾向情報である。
また、表現傾向情報を増幅するということは、次のようなデータの操作である。即ち、表現が出現する傾向を表わす情報の空間内で、元の表現傾向を維持したまま、あるいは元の表現傾向情報からのブレを所定範囲内に留めたまま、表現傾向情報に含まれる表現の種類を増やしたり表現の出現頻度の値を全体的に上げたりすることである。
上記の構成によれば、類似性算出部は、第1および第2の増幅後表現傾向情報の間の関係に基づく、前記第1のテキストデータと前記第2のテキストデータとの間の類似度を算出する。つまり、類似性算出部が算出する類似度として、元のテキストデータの短さや、表層に出現する表記の揺れの影響を排除した値を得ることができる。
Here, expression is an element of expression in the original language. Expressions include, for example, characters, words, clauses, N-grams of characters (N chains), N-grams of words, and the like.
The expression tendency information is data representing what expression tends to appear in certain text data. For example, data that lists all the expressions that appear in certain text data is expression tendency information. Further, for example, data representing the appearance frequency (number of times) for each expression appearing in certain text data is expression tendency information. As a specific example, all the words appearing in a certain text data are extracted and listed by separating them with a comma “,” or the like is expression tendency information.
Amplifying the expression tendency information is a data operation as follows. That is, the expression included in the expression tendency information is maintained in the space of the information indicating the tendency of the expression to appear, while maintaining the original expression tendency, or keeping the blur from the original expression tendency information within the predetermined range. It is to increase the number of types or increase the value of the appearance frequency of the expression as a whole.
According to said structure, the similarity calculation part is based on the relationship between 1st and 2nd post-amplification expression tendency information, and the similarity between said 1st text data and said 2nd text data Is calculated. That is, as the similarity calculated by the similarity calculation unit, a value excluding the influence of the shortness of the original text data and the fluctuation of the notation appearing on the surface layer can be obtained.

[2]また、本発明の一態様は、上記の類似度算出装置において、前記表現増幅部は、抽出された前記関連表現に関連する関連表現を抽出することによって前記表現傾向情報を増幅するとともに、前記表現増幅部は、前記第1のテキストデータを元に増幅した前記第1の増幅後表現傾向情報に含まれる表現と、前記第2のテキストデータを元に増幅した前記第2の増幅後表現傾向情報に含まれる表現とに対応するノードと、さらに前記第1のテキストデータに対応するノードと、前記第2のテキストデータに対応するノードとに関して、ノード間の関連の有無を表わす関連性データを生成し、前記類似性算出部は、前記関連性データに基づいて算出される前記第1のテキストデータと前記第2のテキストデータとの間の関連性の強さを、前記類似度として算出する、ことを特徴とする。   [2] Further, according to one aspect of the present invention, in the above similarity calculation apparatus, the expression amplifying unit amplifies the expression tendency information by extracting a related expression related to the extracted related expression. The expression amplifying unit includes an expression included in the first post-amplification expression tendency information amplified based on the first text data, and the second post-amplification amplified based on the second text data. Relevance representing whether or not there is a relation between nodes with respect to a node corresponding to the expression included in the expression tendency information, a node corresponding to the first text data, and a node corresponding to the second text data Generating similarity data, and the similarity calculation unit calculates the strength of the relationship between the first text data and the second text data calculated based on the relationship data. Calculated as acetonide, characterized in that.

この構成により、表現増幅部は、表現抽出部によって抽出された表現に関連する関連表現を抽出するとともに、その関連表現に関連する関連表現をも抽出する。言い換えれば、表現増幅部が、再帰的に関連情報を抽出するようにして良い。関連性データは、典型例としては、ノード間の関連の有無を表わすグラフ構造のデータとして表現される。関連性データにおいて、特定の2つのノード間の関連の有無は、当該2つのノード間のエッジの有無で表わされる。そして、上記の構成に基づき、一般には、第1のテキストデータを元に増幅した結果得られるノードと、第2のテキストデータを元に増幅した結果得られるノードとの間に、共通のノードが存在し得る。これは、第1のテキストデータに含まれる表現に関連する関連表現(多段階の関連の結果として得られる関連表現も含む)と、第1のテキストデータに含まれる表現に関連する関連表現(同様)とが、同一の表現になり得ることと同じことである。つまり、関連性データがグラフ構造で表わされる場合、第1のテキストデータに対応するノードと第2のテキストデータに対応するノードとが、0個以上のノードを介して連結される状態となる。また、第1および第2のテキストデータは、それぞれ複数の表現を含んで成るものであるので、一般に、第1のテキストデータに対応するノードと第2のテキストデータに対応するノードとは、複数のパスを経て連結される状態となり得る。そして、類似性算出部は、このような関連性データを元に、言い換えればグラフ構造におけるノード間の連結の態様に応じて、第1のテキストデータと第2のテキストデータとの間の関連性の強さを、類似度として算出する。   With this configuration, the expression amplifying unit extracts a related expression related to the expression extracted by the expression extracting unit and also extracts a related expression related to the related expression. In other words, the expression amplifying unit may recursively extract related information. The relevance data is typically expressed as data having a graph structure indicating the presence or absence of a relationship between nodes. In the relevance data, the presence or absence of a relationship between two specific nodes is represented by the presence or absence of an edge between the two nodes. Based on the above configuration, in general, there is a common node between a node obtained as a result of amplification based on the first text data and a node obtained as a result of amplification based on the second text data. Can exist. This includes related expressions related to expressions included in the first text data (including related expressions obtained as a result of multi-level relationships) and related expressions related to expressions included in the first text data (similarly). ) Is the same thing as the same expression. That is, when the relevance data is represented by a graph structure, a node corresponding to the first text data and a node corresponding to the second text data are connected via zero or more nodes. Further, since the first and second text data each include a plurality of expressions, in general, there are a plurality of nodes corresponding to the first text data and a plurality of nodes corresponding to the second text data. It can be in a state of being connected through the path. Then, the similarity calculation unit, based on such relevance data, in other words, the relevance between the first text data and the second text data according to the connection mode between the nodes in the graph structure. Is calculated as a similarity.

[3]また、本発明の一態様は、上記[2]の類似度算出装置において、前記類似性算出部は、前記関連性データに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、前記第1のテキストデータに対応するノードから、前記第2のテキストデータに対応するノードまでのパス上に含まれる全てのノードまでの、前記関連度スコアの総和を、前記類似度として算出する、ことを特徴とする。   [3] Further, according to one aspect of the present invention, in the similarity calculation apparatus according to [2], the similarity calculation unit is data representing ease of transition from node to node based on the association data. Is the relevance score between the nodes, and the relevance from the node corresponding to the first text data to all the nodes included in the path from the node corresponding to the second text data The sum total of the scores is calculated as the similarity.

その一態様として、ノード間の関連性(遷移確率の値)を要素とする遷移行列を用いて、その関連性に基づくノード間のランダムな(言い換えれば、確率変数に基づく)遷移を複数回繰り返したときの、あるノードから他のノードへの遷移確率値を当該ノード間の関連性の強さとする。さらにその一態様として、上記のようなノード間の遷移を無限回繰り返したときの、あるノードから他のノードへの遷移確率の収束値を当該ノード間の関連性の強さとする。
また、第1のテキストデータに対応するノードから、第2のテキストデータに対応するノードまでのパス上に含まれる全てのノードまでの、それぞれの関連度スコアの総和を、両テキストデータ間の類似度として算出することにより、良好な結果が得られる。
As one aspect, using a transition matrix whose element is the relationship between nodes (transition probability value), random transitions between nodes based on the relationship (in other words, based on random variables) are repeated multiple times. The transition probability value from a certain node to another node at that time is taken as the strength of relevance between the nodes. Furthermore, as one aspect thereof, the convergence value of the transition probability from one node to another node when the transition between the nodes as described above is repeated infinitely is set as the strength of relevance between the nodes.
Also, the sum of the respective relevance scores from the node corresponding to the first text data to all the nodes included in the path corresponding to the second text data is the similarity between the two text data. By calculating as a degree, good results are obtained.

[4]また、本発明の一態様は、上記[2]の類似度算出装置において、前記類似性算出部は、前記関連性データに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、前記第1のテキストデータに対応するノードから前記第2のテキストデータに対応するノードまでの前記関連度スコアを、前記類似度として算出する、ことを特徴とする。   [4] Further, according to one aspect of the present invention, in the similarity calculation apparatus according to [2], the similarity calculation unit is data representing ease of transition from node to node based on the association data. And calculating the relevance score from the node corresponding to the first text data to the node corresponding to the second text data as the similarity. Features.

この構成では、第1のテキストデータに対応するノードから第2のテキストデータに対応するノードまでの関連度スコアを、両テキストデータ間の類似度として算出する。この場合、類似度を算出するための計算量を少なく済ませることができる。   In this configuration, the relevance score from the node corresponding to the first text data to the node corresponding to the second text data is calculated as the similarity between the text data. In this case, the amount of calculation for calculating the similarity can be reduced.

[5]また、本発明の一態様は、上記[1]の類似度算出装置において、前記類似性算出部は、前記表現抽出部に入力される第1のテキストデータを元に前記表現増幅部から出力される第1の増幅後表現傾向情報と、前記表現抽出部に入力される第2のテキストデータを元に前記表現増幅部から出力される第2の増幅後表現傾向情報との間の類似度を算出するものであり、前記第1の増幅後表現傾向情報は、前記第1のテキストデータに含まれる表現と、前記第1のテキストデータに含まれる表現に直接関連する関連表現との分布を表わす情報であり、前記第2の増幅後表現傾向情報は、前記第2のテキストデータに含まれる表現と、前記第2のテキストデータに含まれる表現に直接関連する関連表現との分布を表わす情報である、ことを特徴とする。   [5] Further, according to one aspect of the present invention, in the similarity calculation apparatus according to [1], the similarity calculation unit is configured to use the expression amplification unit based on first text data input to the expression extraction unit. Between the first post-amplification expression tendency information output from and the second post-amplification expression tendency information output from the expression amplification section based on the second text data input to the expression extraction section. The first degree of expression tendency information after amplification includes an expression included in the first text data and an associated expression directly related to the expression included in the first text data. Information representing a distribution, and the second post-amplification expression tendency information includes a distribution of an expression included in the second text data and a related expression directly related to the expression included in the second text data. It is information that represents To.

この構成による類似度算出装置は、[1]に記した類似度算出装置の構成を前提とする。よって、関連表現抽出部は、「表現と前記表現に関連する関連表現との関係を用いて」関連表現を抽出する。表現増幅部は、抽出された関連表現によって表現傾向情報を増幅する。一態様としては、表現抽出部が抽出した表現傾向情報に、関連表現のリストを付加することによって、増幅後表現傾向情報とする。別の例としては、得られた関連表現のリストそのものを、増幅後表現傾向情報とする。   The similarity calculation device with this configuration is based on the configuration of the similarity calculation device described in [1]. Therefore, the related expression extraction unit extracts the related expression “using the relationship between the expression and the related expression related to the expression”. The expression amplifying unit amplifies the expression tendency information by the extracted related expression. As an aspect, the expression tendency information after amplification is obtained by adding a list of related expressions to the expression tendency information extracted by the expression extraction unit. As another example, the obtained related expression list itself is used as the expression tendency information after amplification.

[6]また、本発明の一態様は、上記[5]の類似度算出装置において、前記表現増幅部は、抽出された前記関連表現のうち、前記テキストデータとの間の類似性が所定の閾値未満である前記関連表現を除外する関連表現フィルタリング部をさらに備えることを特徴とする。   [6] Further, according to one aspect of the present invention, in the similarity calculation apparatus according to [5], the expression amplifying unit has a predetermined similarity between the extracted related expressions and the text data. The apparatus further comprises a related expression filtering unit that excludes the related expressions that are less than a threshold value.

この構成により、関連表現フィルタリング部は、関連表現のうち、テキストデータとの間の関係が薄いものを除外する。これにより、関連表現を用いて増幅された増幅後表現傾向情報の精度がより高まる。一態様としては、関連表現フィルタリング部は、関連表現抽出部によって抽出された関連表現の各々が、当該関連表現との間で直接関係を有する表現以外の、元のテキストデータに含まれる表現との間での類似度が所定の閾値よりも高いか否かに応じて、その関連表現を除外するかどうかを決定する。   With this configuration, the related expression filtering unit excludes the related expressions that have a weak relationship with the text data. As a result, the accuracy of the post-amplification expression tendency information amplified using the related expression is further increased. As one aspect, the related expression filtering unit is configured such that each of the related expressions extracted by the related expression extracting unit is an expression included in the original text data other than an expression having a direct relationship with the related expression. It is determined whether or not to exclude the related expression depending on whether or not the similarity between them is higher than a predetermined threshold.

[7]また、本発明の一態様による類似番組検索装置は、上記の類似度算出装置を備え、指定された番組に関する番組概要文テキストデータを前記第1のテキストデータとして前記類似度算出装置に入力するとともに、他の番組に関する番組概要文テキストデータを前記第2のテキストデータとして前記類似度算出装置に入力し、前記類似度算出装置によって算出された、前記指定された番組と前記他の番組との間の類似度を取得し、複数の前記他の番組に関して算出される前記指定された番組との間の類似度に基づいて、複数の前記他の番組の中から前記指定された番組に類似する前記他の番組を検索する、ことを特徴とする。   [7] Further, a similar program search device according to an aspect of the present invention includes the similarity calculation device described above, and the program summary sentence text data related to the designated program is used as the first text data in the similarity calculation device. The program summary sentence text data relating to another program is input to the similarity calculation device as the second text data, and the designated program and the other program calculated by the similarity calculation device are input. And the specified program is selected from among the plurality of other programs based on the similarity between the specified program and the specified program calculated for the plurality of the other programs. The similar other program is searched.

[8]また、本発明の一態様は、コンピューターを、テキストデータから表現を抽出することによって前記表現の種類の出現傾向を表わす表現傾向情報を求める表現抽出部と、表現と前記表現に関連する関連表現との関係を用いて、前記表現抽出部によって抽出された表現に関連する前記関連表現を抽出することによって前記表現抽出部によって抽出された前記表現傾向情報を増幅し、増幅後表現傾向情報を出力する表現増幅部と、前記表現抽出部に入力される第1のテキストデータを元に前記表現増幅部から出力される第1の増幅後表現傾向情報と、前記表現抽出部に入力される第2のテキストデータを元に前記表現増幅部から出力される第2の増幅後表現傾向情報との間の関係に基づく、前記第1のテキストデータと前記第2のテキストデータとの間の類似度を算出する類似性算出部と、を具備する類似度算出装置として機能させるプログラムである。   [8] One aspect of the present invention relates to an expression extraction unit that obtains expression tendency information representing an appearance tendency of the expression type by extracting an expression from text data, and the expression and the expression. Amplifying the expression tendency information extracted by the expression extraction unit by extracting the related expression related to the expression extracted by the expression extraction unit using the relationship with the related expression, and the amplified expression tendency information The expression amplifying unit for outputting, the first post-amplification expression tendency information output from the expression amplifying unit based on the first text data input to the expression extracting unit, and the input to the expression extracting unit The first text data and the second text based on the relationship between the second amplified expression tendency information output from the expression amplifier based on the second text data Is a program which functions as a similarity calculation anda similarity calculating section for calculating a degree of similarity between the over data.

本発明によれば、テキストデータが十分に長くない場合や、テキストデータの表層に出現する表現に偏りがある場合などにも、テキストデータ間の類似性を正当に評価できるようになる。また、そのような正当な評価を、放送番組等の概要文に適用することにより、番組間の類似性を正当に評価することができるようになる。そして、指定された番組に対する正当な類似度に基づいて、比較対象である他の番組を検索することができるようになる。   According to the present invention, it is possible to legitimately evaluate the similarity between text data even when the text data is not sufficiently long or when the expression appearing on the surface layer of the text data is biased. Further, by applying such a legitimate evaluation to a summary sentence of a broadcast program or the like, it becomes possible to legitimately evaluate the similarity between programs. Then, it becomes possible to search for another program to be compared based on the legitimate similarity to the designated program.

本発明の第1の実施形態による類似番組検索装置の機能構成を示すブロック図である。It is a block diagram which shows the function structure of the similar program search apparatus by the 1st Embodiment of this invention. 同実施形態による番組情報記憶部のデータ構成の例を示す概略図である。It is the schematic which shows the example of a data structure of the program information storage part by the embodiment. 同実施形態による類似番組検索装置の全体的な処理の手順を示したフローチャートである。It is the flowchart which showed the procedure of the whole process of the similar program search apparatus by the embodiment. 同実施形態による関連単語フィルタリング部が関連単語をフィルタリングする処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process which the related word filtering part by the embodiment filters a related word. 本発明の第2の実施形態による類似番組検索装置の構成を示すブロック図である。It is a block diagram which shows the structure of the similar program search apparatus by the 2nd Embodiment of this invention. 同実施形態による関連グラフ構築部が構築するグラフのデータ例を示す概略図である。It is the schematic which shows the example of data of the graph which the related graph construction part by the same embodiment builds. 同実施形態による関連グラフ構築部が構築するグラフのデータにおいて、「手法1」を用いて文書ノード間の類似度を算出する際に用いる、関連度スコアの範囲を示す概略図である。It is the schematic which shows the range of the relevance score used when calculating the similarity between document nodes using the "method 1" in the graph data which the related graph construction part by the same embodiment constructs. 同実施形態による関連グラフ構築部が構築するグラフのデータにおいて、「手法2」を用いて文書ノード間の類似度を算出する際に用いる、関連度スコアの範囲を示す概略図である。It is the schematic which shows the range of the relevance score used when calculating the similarity between document nodes using the "method 2" in the graph data which the related graph construction part by the same embodiment builds.

[第1の実施形態]
本発明の一実施形態について、以下で、図面を参照しながら説明する。
図1は、本実施形態による類似番組検索装置の機能構成を示すブロック図である。図示するように、類似番組検索装置2は、類似度算出装置1と、番組情報記憶部11と、ランキング部17と、検索結果出力部18とを含んで構成される。また、類似度算出装置1は、文書読込部12と、単語抽出部13(表現抽出部)と、関連単語抽出部14(関連表現抽出部)と、関連単語フィルタリング部15(関連表現フィルタリング部)と、類似性算出部16とを含んで構成される。なお、関連単語抽出部14と、関連単語フィルタリング部15とを合わせたものが、表現増幅部25である。
[First Embodiment]
An embodiment of the present invention will be described below with reference to the drawings.
FIG. 1 is a block diagram showing a functional configuration of a similar program search apparatus according to this embodiment. As shown in the figure, the similar program search device 2 includes a similarity calculation device 1, a program information storage unit 11, a ranking unit 17, and a search result output unit 18. Also, the similarity calculation device 1 includes a document reading unit 12, a word extraction unit 13 (expression extraction unit), a related word extraction unit 14 (related expression extraction unit), and a related word filtering unit 15 (related expression filtering unit). And a similarity calculation unit 16. A combination of the related word extraction unit 14 and the related word filtering unit 15 is an expression amplification unit 25.

類似度算出装置1は、テキスト間の類似度を算出するものである。
番組情報記憶部11は、放送等の番組に関する情報を記憶する。番組情報記憶部11は、番組のコンテンツそのもののデータ(映像、音声等)と、その番組を説明した番組概要文のテキストデータとを記憶する。なお、番組情報記憶部11やその他の情報記憶手段としては、磁気ディスク装置や半導体メモリなどを用いる。
文書読込部12は、番組情報記憶部11に記憶されている番組概要文のテキストを順次読み込む。
The similarity calculation device 1 calculates the similarity between texts.
The program information storage unit 11 stores information related to programs such as broadcasting. The program information storage unit 11 stores data (video, audio, etc.) of program content itself and text data of a program summary sentence describing the program. As the program information storage unit 11 and other information storage means, a magnetic disk device, a semiconductor memory, or the like is used.
The document reading unit 12 sequentially reads the text of the program summary sentence stored in the program information storage unit 11.

単語抽出部13は、テキストデータから単語(表現)を抽出することによって表現の種類の出現傾向を表わす表現傾向情報を求める。具体的には、単語抽出部13は、文書読込部12によって読み込まれた番組概要文のテキストの形態素解析処理を行い、番組概要文に含まれる単語(名詞や動詞等の表現)を抽出する。なお、単語抽出部13が抽出した単語のリスト(例えば、コンマで区切られた単語を列挙したデータ)は、上記の表現傾向情報である。形態素解析処理は既存の技術を利用することにより、実行可能である。例えば、形態素解析器MeCab(Yet Another Part-of-Speech and Morphological Analyzer)を利用できる(参考URL:http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html)。   The word extraction unit 13 obtains expression tendency information representing the appearance tendency of the type of expression by extracting a word (expression) from the text data. Specifically, the word extraction unit 13 performs a morphological analysis process on the text of the program summary sentence read by the document reading unit 12 and extracts words (expressions such as nouns and verbs) included in the program summary sentence. The list of words extracted by the word extraction unit 13 (for example, data listing words separated by commas) is the above-described expression tendency information. The morphological analysis process can be executed by using existing technology. For example, a morphological analyzer MeCab (Yet Another Part-of-Speech and Morphological Analyzer) can be used (reference URL: http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html).

関連単語抽出部14は、単語抽出部13が抽出した単語のうちの名詞に対して、関連する単語(関連表現)の抽出を行なう。このために、関連単語抽出部14は、予め単語間の関係を獲得して内部の記憶手段(不図示)に保持しておく。ここで、単語間の関係とは、類似関係や、因果関係や、上位下位関係や、属性関係や、あるものとその材料との関係や、ある場所とその場所の名物との関係などである。単語間の関係を予め獲得しておくためには、例えば、ウェブから得られるテキストなどを元として、単語間関係獲得ツールなどを利用する。単語間関係獲得ツール自体は既存技術を利用して実現できる。一例として、上位下位関係は、日本語で「XはYである」あるいは「XはYの一種である」などと言えるときにXとYとの間で成り立つ関係であり、この場合にXは下位概念であり、Yは上位概念である。上位下位関係の単語を獲得するには、参考URL[http://alaginrc.nict.go.jp/hyponymy/]にも記載された手法を利用することができる。この手法では、インターネットを介して、ウェブ上の事典等からXML(Extensible Markup Language)形式のデータを取得し、予め機械学習した結果を用いて、上位概念の単語と下位概念の単語とのペアを獲得する。この手法により数百万組の関係を獲得できる。また、意味的関係抽出ツールを利用して、因果関係や、場所と名物との関係や、音楽家と曲名との関係など、様々な意味的関係を獲得する。意味的関係抽出ツール自体は、参考URL[http://alaginrc.nict.go.jp/resources/nictmastar/resource-info/abstract.html]などにも記載されているように、既存技術を利用して獲得できる。なお、これらのツールを使わず、手作業で単語間の関係を獲得・蓄積して、関連単語抽出部14で用いるようにしても良い。   The related word extracting unit 14 extracts a related word (related expression) for the nouns among the words extracted by the word extracting unit 13. For this purpose, the related word extracting unit 14 acquires a relationship between words in advance and stores it in an internal storage unit (not shown). Here, the relationship between words includes a similarity relationship, a causal relationship, an upper-lower relationship, an attribute relationship, a relationship between a certain thing and its material, a relationship between a certain place and a special product at that place, etc. . In order to acquire the relationship between words in advance, for example, an inter-word relationship acquisition tool is used based on text obtained from the web. The inter-word relationship acquisition tool itself can be realized using existing technology. As an example, the upper and lower relationship is a relationship that holds between X and Y when it can be said that “X is Y” or “X is a kind of Y” in Japanese. It is a subordinate concept, and Y is a superordinate concept. In order to acquire words of upper and lower relations, the technique described in the reference URL [http://alaginrc.nict.go.jp/hyponymy/] can be used. In this method, data in XML (Extensible Markup Language) format is acquired from the web encyclopedia, etc. via the Internet, and a pair of a high-order concept word and a low-order concept word is obtained using the result of machine learning in advance. To win. This approach can capture millions of relationships. In addition, the semantic relationship extraction tool is used to acquire various semantic relationships such as a causal relationship, a relationship between a place and a specialty, and a relationship between a musician and a song title. The semantic relation extraction tool itself uses existing technology as described in the reference URL [http://alaginrc.nict.go.jp/resources/nictmastar/resource-info/abstract.html]. Can be obtained. Instead of using these tools, the relationship between words may be acquired and accumulated manually and used in the related word extraction unit 14.

関連単語フィルタリング部15は、関連単語抽出部14が獲得した関連単語(名詞)のフィルタリングを行なう。言い換えれば、関連単語フィルタリング部15は、関連単語抽出部14によって抽出された関連単語のうち、番組概要文との間の類似性が所定の閾値未満(つまり、類似度が低い)である関連単語を除外する。即ち、関連単語フィルタリング部15は、関連単語抽出部14が獲得した関連単語のうち、元の番組概要文の文脈と関係のない関連単語を削除する。このフィルタリング処理の詳細については、後述する。   The related word filtering unit 15 filters related words (nouns) acquired by the related word extracting unit 14. In other words, the related word filtering unit 15 has the related word extracted by the related word extracting unit 14 and the similarity to the program summary sentence is less than a predetermined threshold (that is, the similarity is low). Is excluded. That is, the related word filtering unit 15 deletes related words that are not related to the context of the original program summary sentence from the related words acquired by the related word extracting unit 14. Details of this filtering process will be described later.

つまり、関連単語抽出部14と関連単語フィルタリング部15とを含んでなる表現増幅部25は、単語(表現)とその単語と関連単語(関連表現)との間の所定の関係(類似関係など)を用いて、単語抽出部13によって抽出された表現傾向情報を増幅し、増幅後表現傾向情報を出力する。つまり、単語抽出部13によって抽出された表現傾向情報を基とし、関連単語抽出部14が抽出した関連単語のうち、関連単語フィルタリング部15によって除外されなかった関連単語のリストを加えたものが、増幅後表現傾向情報である。   That is, the expression amplifying unit 25 including the related word extracting unit 14 and the related word filtering unit 15 has a predetermined relationship (similarity relationship) between the word (expression) and the word and the related word (related expression). Is used to amplify the expression tendency information extracted by the word extraction unit 13 and output the amplified expression tendency information. That is, based on the expression tendency information extracted by the word extraction unit 13, among the related words extracted by the related word extraction unit 14, a list of related words that are not excluded by the related word filtering unit 15 is added. It is expression tendency information after amplification.

類似性算出部16は、番組概要文dに関連して得られた関連単語フィルタリングの結果と、他の番組概要文dからdMまでのそれぞれに関連して得られた関連単語フィルタリングの結果との間の類似性を計算する。類似性算出部16が算出するこの類似性は、即ち、番組概要文dと、番組概要文dからdMまでのそれぞれとの間の類似性を表わす。 Similarity calculating unit 16, the related word filtering obtained in relation to the program summary statement d 0 result, the related word filtering obtained in relation to each of the other program outline sentence d 1 to d M Calculate the similarity between the results. This similarity calculated by the similarity calculation unit 16 represents the similarity between the program summary sentence d 0 and each of the program summary sentences d 1 to d M.

ランキング部17は、類似性算出部16が算出した、番組概要文dと、番組概要文dからdMまでのそれぞれとの間の類似性に基づき、番組概要文dからdMをランキングして出力する。このランキングは、即ち、それぞれの番組概要文dからdMに対応する番組コンテンツのランキングである。 Ranking unit 17, the similarity calculating unit 16 is calculated, the program summary statement d 0, based from program summary statement d 1 on the similarity between the respective up d M, the d M from program summary statement d 1 Ranking and output. This ranking, that is, a ranking of program content corresponding to d M from each of the program outline statement d 1.

検索結果出力部18は、ランキング部17が出力するランキング情報(ランキングされる個々の番組のスコア(類似度)も含む)を、指定された番組(番組概要文dに対応)に類似する検索結果として出力する。ランキング部は、この検索結果を、テキストデータの形式やHTML(Hypertext Markup Language)データの形式で出力する。 Search result output unit 18, ranking information ranking unit 17 outputs (ranked as the score of each program (similarity) is also included), and similar to the designated program (corresponding to the program summary sentence d 0) search Output as a result. The ranking unit outputs the search result in a text data format or HTML (Hypertext Markup Language) data format.

図2は、番組情報記憶部11のデータ構成の例を示す概略図である。図示するように、番組情報記憶部11は、表形式のデータ構造を有しており、番組概要文と番組コンテンツの各項目を備える。この表の1行が、1番組に相当する。番組概要文の項目は、番組内容等を表わすテキストデータを格納する。番組コンテンツの項目は、テレビ番組の場合の映像データや、ラジオ番組の場合の音声データ等を格納する。図示する例では、番組情報記憶部11は、d,d,・・・,dの(M+1)個の番組概要文を記憶している。 FIG. 2 is a schematic diagram illustrating an example of a data configuration of the program information storage unit 11. As shown in the drawing, the program information storage unit 11 has a tabular data structure and includes items of a program summary sentence and program content. One row of this table corresponds to one program. The item of the program summary sentence stores text data representing the program contents and the like. The program content item stores video data for a television program, audio data for a radio program, and the like. In the illustrated example, the program information storage unit 11 stores (M + 1) program summary sentences d 0 , d 1 ,..., D M.

次に、類似番組検索装置2の動作について説明する。
図3は、類似番組検索装置2の処理の手順を示したフローチャートである。以下、このフローチャートに沿って、説明する。
Next, the operation of the similar program search device 2 will be described.
FIG. 3 is a flowchart showing a processing procedure of the similar program search device 2. Hereinafter, it demonstrates along this flowchart.

まず、ステップS01において、文書読込部12は、番組情報記憶部11に記憶されている番組概要文の中から、ユーザー等によって指定された一つの番組概要文(d)を読み込む。ここで読み込まれる番組概要文の具体例は、下の表1に示す通りである。表1に示すように、番組概要文は、テキストデータであり、番組のタイトルおよびサブタイトルと、番組内容を説明する概要文とを含んでいる。 First, in step S01, the document reading unit 12 reads one program summary sentence (d 0 ) designated by the user or the like from the program summary sentences stored in the program information storage unit 11. Specific examples of the program summary text read here are as shown in Table 1 below. As shown in Table 1, the program summary sentence is text data, and includes a program title and subtitle, and a summary sentence explaining the program contents.

Figure 2013239132
Figure 2013239132

次に、ステップS02において、単語抽出部13が、上記の番組概要文に含まれる単語を抽出する。この際、抽出対象の単語の品詞として、(1)名詞のみ、(2)名詞と動詞、(3)名詞と動詞と形容詞など、複数の組合せであっても良い。なお、助詞や助動詞等は、あまり文章の特徴を表わすものではないため、抽出対象に含めない場合が多い。ここでは、名詞のみを抽出した場合の単語リストを、下の表2に示す。   Next, in step S02, the word extraction part 13 extracts the word contained in said program summary sentence. At this time, the part of speech of the extraction target word may be a plurality of combinations such as (1) noun only, (2) noun and verb, and (3) noun, verb and adjective. Note that particles, auxiliary verbs, and the like do not often represent the characteristics of sentences and are therefore not included in the extraction target. Here, the word list when only nouns are extracted is shown in Table 2 below.

Figure 2013239132
Figure 2013239132

次に、ステップS03において、関連単語抽出部14が、単語抽出部13によって抽出された単語に関連する単語(関連単語)を抽出する。ここで、関連する単語とは、上位下位関係、因果関係、場所と名物の関係、モノとその素材の関係など、様々な関係を利用することができる。関連単語抽出部14が関連単語を抽出する際には、一種類だけ(例えば上位下位関係だけ)に限定された関係を利用しても良いし、あるいは、複数種類の関係の組み合わせ(例えば、上位下位関係、因果関係、場所と名物の関係、モノとその素材の関係)を全て利用しても良い。表2に列挙された単語群に対して、全ての関係を利用して取り出した場合の関連単語の一部分の例を表3から表6までに示す。   Next, in step S03, the related word extraction unit 14 extracts words (related words) related to the word extracted by the word extraction unit 13. Here, as the related words, various relationships such as a high-order relationship, a causal relationship, a relationship between a place and a specialty, a relationship between an object and its material can be used. When the related word extraction unit 14 extracts related words, a relationship limited to only one type (for example, only the upper and lower relationship) may be used, or a combination of a plurality of types of relationships (for example, a higher level) Subordinate relations, causal relations, relations between places and specialties, relations between objects and their materials) may all be used. Tables 3 to 6 show examples of a part of related words when all the relationships are extracted from the word groups listed in Table 2.

Figure 2013239132
Figure 2013239132

表3は、上位下位関係により抽出された関連単語のリストである。なお、表3では、「くさや菌」、「秘密」、「新島」、「干物」、「スタジオパーク」という単語に関連する関連単語の一部のみを示し、その他を省略している。   Table 3 is a list of related words extracted by upper and lower relations. In Table 3, only some of the related words related to the words “Kusaya fungus”, “secret”, “Niijima”, “dried fish”, and “studio park” are shown, and others are omitted.

Figure 2013239132
Figure 2013239132

表4は、因果関係により抽出された関連単語のリストである。なお、表4では、「塩」、「微生物」、「塩水」という単語に関連する関連単語の一部のみを示し、その他を省略している。   Table 4 is a list of related words extracted by the causal relationship. In Table 4, only some of the related words related to the words “salt”, “microorganism”, and “salt water” are shown, and the others are omitted.

Figure 2013239132
Figure 2013239132

表5は、あるものとその材料という関係により抽出された関連単語のリストである。なお、表5では、「魚」、「干物」、「塩」という単語に関連する関連単語の一部のみを示し、その他を省略している。   Table 5 is a list of related words extracted by the relationship between a certain thing and its material. In Table 5, only some of the related words related to the words “fish”, “dried fish”, and “salt” are shown, and the others are omitted.

Figure 2013239132
Figure 2013239132

表6は、場所とその場所の名物という関係により抽出された関連単語のリストである。なお、表5では、「東京」という単語に関連する関連単語の一部のみを示し、その他を省略している。   Table 6 is a list of related words extracted based on the relationship between a place and a specialty of the place. In Table 5, only some of the related words related to the word “Tokyo” are shown, and the others are omitted.

次に、ステップS04において、関連単語フィルタリング部15が、関連単語抽出部14によって抽出された関連単語について、元の番組概要文との関連性を評価することにより、その番組概要文における文脈とは関係のないものを除外する。このフィルタリング処理の詳細な手順については、後で別の図を参照しながら説明する。   Next, in step S04, the related word filtering unit 15 evaluates the relationship between the related word extracted by the related word extracting unit 14 and the original program summary sentence, so that the context in the program summary sentence is Exclude irrelevant things. The detailed procedure of this filtering process will be described later with reference to another drawing.

次のステップS05からS08までの処理は、それぞれ、既に述べたステップS01からS04までの処理と同様の処理である。但し、ステップS01からS04までの処理の対象が番組概要文dであったのに対し、ステップS05からS08までの処理の対象は、d以外、即ち、dからdまでのいずれかである。 The processing from the next steps S05 to S08 is the same as the processing from steps S01 to S04 already described. However, while the subject of the processing from steps S01 to S04 was program summary statement d 0, the target of processing from step S05 to S08, except d 0, that is, either from d 1 to d M It is.

次のステップS09において、類似性算出部16は、番組概要文間の類似性を算出する。具体的には、類似性算出部16は、指定された対象番組の番組概要文dから単語抽出部13によって抽出された単語のリストと、比較対象となる番組の番組概要文(dからdまでのいずれか)から単語抽出部13によって抽出された単語のリストとを入力とする。また、類似性算出部16は、番組概要文dを元に抽出された関連単語フィルタリング結果と、比較対象となる番組の番組概要文(dからdまでのいずれか)を元に抽出された関連単語フィルタリング結果をも入力とする。そして、類似性算出部16は、既存技術による手法を用いて、両方の単語集合の間の類似度を計算する。類似度の計算方法としては様々な手法を利用可能であるが、一例としては、単語の出現状況を表わす単語出現ベクトル間のコサイン類似度を計算する方法を利用できる。この方法の概要は次の通りである。即ち、ある文書を元に抽出される関連単語の種類数をN(Nは、例えば、数万から数十万程度の値)としたとき、そのうちの第i番目(1≦i≦N)の関連単語の出現頻度の値を要素とするN次元のベクトルを求める。ここで、出現頻度は、0か1のいずれかの値に限定しても良いし、関連単語のリストにおける出現回数をカウントした値としても良い。このように求めた2つのN次元ベクトルvとvの間のコサイン類似度は、次の式で算出される。なお、番組概要文dを元に抽出された単語およびその関連単語(第1の増幅後表現傾向情報)がvに対応し、番組概要文d〜dMのいずれかを元に抽出された単語およびその関連単語(第2の増幅後表現傾向情報)がvに対応する。 In the next step S09, the similarity calculation unit 16 calculates the similarity between program summary sentences. Specifically, the similarity calculating unit 16, a list of words that have been extracted by the word extraction section 13 from the program summary statement d 0 of the designated target program, the program summary statement (d 1 of the program to be compared and enter a list of words that have been extracted by the word extraction section 13 from one) to d M. In addition, the similarity calculation unit 16 extracts based on the related word filtering result extracted based on the program summary sentence d 0 and the program summary sentence (any one from d 1 to d M ) of the program to be compared. The related word filtering result is also input. And the similarity calculation part 16 calculates the similarity between both word sets using the method by an existing technique. Various methods can be used as a method of calculating the similarity, and as an example, a method of calculating the cosine similarity between word appearance vectors representing the appearance status of words can be used. The outline of this method is as follows. That is, when the number of types of related words extracted based on a document is N (N is, for example, a value of about tens of thousands to hundreds of thousands), the i-th (1 ≦ i ≦ N) of them An N-dimensional vector having the value of the appearance frequency of related words as an element is obtained. Here, the appearance frequency may be limited to any value of 0 or 1, or may be a value obtained by counting the number of appearances in the list of related words. The cosine similarity between the two N-dimensional vectors v 1 and v 2 obtained in this way is calculated by the following equation. Note that the word extracted based on the program summary sentence d 0 and its related word (first amplified expression tendency information) correspond to v 1 and extracted based on any of the program summary sentences d 1 to d M. by words and related words that (second post-amplification expressed tendency information) corresponding to v 2.

(コサイン類似度)=(v・v)/(|v|・|v|) (Cosine similarity) = (v 1 · v 2 ) / (| v 1 | · | v 2 |)

但し、上式において、分子における(v・v)は、両ベクトルの内積である。また、分母における|v|と|v|は、それぞれのベクトルのノルム(大きさ)である。 However, in the above equation, (v 1 · v 2 ) in the numerator is the inner product of both vectors. Further, | v 1 | and | v 2 | in the denominator are norms (sizes) of the respective vectors.

そして、類似性算出部16は、現在の比較対象番組に関して算出された類似度を、データベース(不図示)に格納する。   And the similarity calculation part 16 stores the similarity calculated regarding the present comparison object program in a database (not shown).

ステップS10において、類似番組検索装置2は、番組概要文d〜dの全てについて、ステップS05からS09までの処理を終えたか同かを判定する。そして、終えていた場合(ステップS10:YES)には次のステップS11に進み、終えていなかった場合(ステップS10:NO)には未処理の番組概要文を処理するためにステップS05に戻る。 In step S10, the similar program search device 2 determines whether or not the processing from steps S05 to S09 has been completed for all of the program summary sentences d 1 to d M. If it has been completed (step S10: YES), the process proceeds to the next step S11. If it has not been completed (step S10: NO), the process returns to step S05 to process an unprocessed program summary sentence.

ステップS11に進んだ場合には、ランキング部17が、類似性算出部16によって算出された類似度に基づき、類似度の大きい順に番組概要文d〜dをランキングする。これは、番組概要文d〜dにそれぞれ対応する番組コンテンツをランキングすることと同じ意味を持つ。また、検索結果出力部18は、ランキング部17から出力された番組関連文ごとの類似度の情報およびランキングの情報に基づき、番組概要文をランキングした形式で出力する。検索結果出力部18は、例えば、HTML形式のランキングページを出力し、ユーザーがそのページから番組コンテンツデータにリンクをたどってアクセスできるようにする。 When the processing proceeds to step S11, the ranking unit 17 ranks the program summary sentences d 1 to d M in descending order of similarity based on the similarity calculated by the similarity calculation unit 16. This has the same meaning as ranking program contents respectively corresponding to the program summary sentences d 1 to d M. Further, the search result output unit 18 outputs the program summary sentences in a ranking format based on the similarity information and ranking information for each program-related sentence output from the ranking unit 17. The search result output unit 18 outputs, for example, a ranking page in an HTML format so that the user can access the program content data by following the link from the page.

図4は、関連単語フィルタリング部15によるフィルタリング処理の詳細な手順を示すフローチャートである。以下、このフローチャートに沿って説明する。   FIG. 4 is a flowchart showing a detailed procedure of filtering processing by the related word filtering unit 15. Hereinafter, it demonstrates along this flowchart.

まずステップS21において、関連単語フィルタリング部15は、関連単語抽出部14によって抽出された関連単語の中から1つを選択する。
次にステップS22において、関連単語フィルタリング部15は、ステップS21において選択した関連単語を、暫定的に、除外対象として設定する。
次にステップS23において、関連単語フィルタリング部15は、番組概要文内の単語のうち未処理のものを一つ選択する。但し、このとき、ステップS21において直近で選択した関連単語に直接関連している番組概要文内の単語を除外する。言い換えれば、関連単語フィルタリング部15は、単語抽出部13が当該番組概要文から抽出した単語リストから、ステップS21において直近で選択した関連単語に直接関連している単語を除外し、残りの単語の中の一つを選択する。
First, in step S <b> 21, the related word filtering unit 15 selects one of the related words extracted by the related word extracting unit 14.
Next, in step S22, the related word filtering unit 15 provisionally sets the related word selected in step S21 as an exclusion target.
Next, in step S23, the related word filtering unit 15 selects one unprocessed word among the words in the program summary sentence. However, at this time, words in the program summary sentence that are directly related to the related word selected most recently in step S21 are excluded. In other words, the related word filtering unit 15 excludes words directly related to the related word selected most recently in step S21 from the word list extracted from the program summary sentence by the word extracting unit 13, and adds the remaining words. Select one of them.

次にステップS24において、関連単語フィルタリング部15は、ステップS21で選択した関連単語と、ステップS23で選択した番組概要文内の一単語との間の類似性が所定の閾値以上であるかどうかを判定する。両単語間の類似度が閾値以上である(即ち、類似している度合いが高い)場合(ステップS24:YES)には次のステップS25に進み、類似度が閾値未満である(即ち、類似している度合いが低い)場合(ステップS24:NO)にはステップS26に飛ぶ。   Next, in step S24, the related word filtering unit 15 determines whether the similarity between the related word selected in step S21 and one word in the program summary sentence selected in step S23 is greater than or equal to a predetermined threshold. judge. When the similarity between the two words is equal to or greater than the threshold (that is, the degree of similarity is high) (step S24: YES), the process proceeds to the next step S25, where the similarity is less than the threshold (that is, similar). If it is low) (step S24: NO), the process jumps to step S26.

ここでの単語間の類似性評価は、既存の分布類似度などの指標を利用できる。一例としては、実際のテキスト等における出現頻度に基づいて大量の種類の単語をクラスタリングし、そのクラスタリングの結果から、単語のクラスへの所属確率の分布を求める。そしてこの確率分布間の距離から単語間の類似度を計算することが出来る。例えば、係り受けに基づいた単語のクラスタリングについては、下記の文献を参考とすることができる。
参考文献:風間淳一,Stijn De Saeger,鳥澤健太郎,村田真樹,“係り受けの確率的クラスタリングを用いた大規模類似語リストの作成”,言語処理学会第15回年次大会,pp. 84-87,2009年
Here, the similarity evaluation between words can use an index such as an existing distribution similarity. As an example, a large number of types of words are clustered based on the appearance frequency in actual text or the like, and the distribution of the probability of belonging to a class of words is obtained from the clustering result. The similarity between words can be calculated from the distance between the probability distributions. For example, the following literature can be referred to for word clustering based on dependency.
References: Shinichi Kazama, Stijn De Saeger, Kentaro Torizawa, Maki Murata, “Creating a Large-scale Similar Words List Using Dependent Stochastic Clustering”, 15th Annual Conference of the Language Processing Society, pp. 84-87 , 2009

ステップS25に進んだ場合、関連単語フィルタリング部15は、ステップS21において選択した関連単語を、除外対象から取り除く。
次にステップS26において、関連単語フィルタリング部15は、番組概要文内の全単語について、ステップS23からS25までの処理を終えたかどうかを判定する。番組概要文内の全単語の処理を終えた場合(ステップS26:YES)には、次のステップS27に進む。番組概要文内の全単語の処理をまだ終えていない場合(ステップS26:NO)には、次の単語を処理するためにステップS23に戻る。
When it progresses to step S25, the related word filtering part 15 removes the related word selected in step S21 from exclusion object.
Next, in step S26, the related word filtering unit 15 determines whether or not the processing from steps S23 to S25 has been completed for all words in the program summary sentence. If all the words in the program summary sentence have been processed (step S26: YES), the process proceeds to the next step S27. If all the words in the program summary sentence have not been processed yet (step S26: NO), the process returns to step S23 to process the next word.

次にステップS27において、関連単語フィルタリング部15は、当該番組概要文に関して関連単語抽出部14から出力された全ての関連単語について、ステップS21からS26までの処理を終えたかどうかを判定する。全ての関連単語についての処理を終えた場合(ステップS27:YES)には、このフローチャート全体の処理を終了する。全ての関連単語についての処理を終えておらず、まだ関連単語が残っている場合(ステップS27:NO)には、次の関連単語の処理のためにステップS21に戻る。   Next, in step S27, the related word filtering unit 15 determines whether or not the processing from steps S21 to S26 has been completed for all the related words output from the related word extracting unit 14 regarding the program summary sentence. When the process for all related words is completed (step S27: YES), the process of the entire flowchart is terminated. If all the related words have not been processed and there are still related words (step S27: NO), the process returns to step S21 for processing the next related word.

つまり、ステップS21において選択した関連単語が、ステップS23で選択される単語のうちの1個以上に関して、ステップS24において類似度が所定閾値以上であると判定された場合には、その関連単語は、関連単語のリストからは除外されずに残る。逆に、ステップS21において選択した関連単語が、ステップS23で選択される単語のいずれとの間でも、所定閾値以上の類似度とはならない場合には、その関連単語は関連単語のリストから除外される。これにより、関連単語による増幅の際に、元の番組概要文の文脈に合わない関連単語が除外される。よって、類似性の算出の際の精度が上がる。   That is, when the related word selected in step S21 is determined to be equal to or higher than the predetermined threshold in step S24 for one or more of the words selected in step S23, the related word is It remains without being excluded from the list of related words. On the other hand, if the related word selected in step S21 does not have a degree of similarity equal to or higher than a predetermined threshold with any of the words selected in step S23, the related word is excluded from the list of related words. The As a result, related words that do not match the context of the original program summary sentence are excluded during amplification by related words. Therefore, the accuracy in calculating similarity is increased.

一例として、表1で示した番組概要文に含まれる「秘密」という単語は、干物である「くさや」の独特の味がなぜ生じるかという興味を引くために「味の秘密」という表現において用いられている。一方で、表3では、この単語「秘密」との間で上位下位関係を有する単語がリストされている。単語「秘密」のうち、例えば「リリース作品」や「開局記念番組」という関連単語は、表1の番組概要文の中に含まれる「秘密」以外の単語との間では、定められた閾値以上の類似度を持たない。従って、関連単語フィルタリング部15は、図4に示したフィルタリング処理の結果として、これら「リリース作品」や「開局記念番組」といった関連単語を除外する。つまり、除外された関連単語は、類似性算出部16による番組概要文間の類似度の算出には用いられない。   As an example, the word “secret” included in the program summary sentence shown in Table 1 is used in the expression “secret taste” to attract the interest of why the unique taste of dried fish “Kusaya” occurs. It has been. On the other hand, in Table 3, words having a high-order subordinate relationship with this word “secret” are listed. Among the words “secret”, for example, related words such as “release work” and “opening commemoration program” are not less than a predetermined threshold with words other than “secret” included in the program summary sentence of Table 1. There is no similarity. Therefore, the related word filtering unit 15 excludes these related words such as “release work” and “opening commemorative program” as a result of the filtering process shown in FIG. That is, the excluded related words are not used for calculating the similarity between program summary sentences by the similarity calculating unit 16.

以上述べたように、類似番組検索装置2は、指定された番組に関する番組概要文テキストデータ(d)を第1のテキストデータとして類似度算出装置1に入力するとともに、他の番組に関する番組概要文テキストデータ(d〜dM)の各々を第2のテキストデータとして類似度算出装置1に入力する。そして、類似度算出装置1によって算出された、前記指定された番組と前記他の番組との間の類似度を取得し、複数の前記他の番組に関して算出される前記指定された番組との間の類似度に基づいて、複数の前記他の番組の中から前記指定された番組に類似する前記他の番組を検索する、 As described above, the similar program search device 2 inputs the program summary sentence text data (d 0 ) related to the designated program to the similarity calculation device 1 as the first text data, and the program summary related to other programs. Each of the sentence text data (d 1 to d M ) is input to the similarity calculation device 1 as second text data. Then, the similarity between the specified program and the other program calculated by the similarity calculation device 1 is acquired, and between the specified program calculated for a plurality of the other programs. Searching for another program similar to the specified program from among the other programs based on the similarity of

[第2の実施形態]
次に、第2の実施形態について説明する。なお、前述した実施形態と共通する機能については、図面において同一の符号を付与する。また、前述した実施形態と共通する事項については説明を省略し、本実施形態に特有の事項を中心に説明する。
図5は、同実施形態による類似番組検索装置の構成を示すブロック図である。図示するように、類似番組検索装置102は、類似度算出装置101を含んで構成される。類似度算出装置101は、文書読込部12と、単語抽出部13と、関連単語抽出部114と、関連グラフ構築部119と、類似性算出部116とを含んで構成される。
[Second Embodiment]
Next, a second embodiment will be described. In addition, about the function which is common in embodiment mentioned above, the same code | symbol is provided in drawing. Further, description of matters common to the above-described embodiment will be omitted, and description will be made centering on matters specific to the present embodiment.
FIG. 5 is a block diagram showing a configuration of a similar program search device according to the embodiment. As shown in the figure, the similar program search device 102 includes a similarity calculation device 101. The similarity calculation device 101 includes a document reading unit 12, a word extraction unit 13, a related word extraction unit 114, a related graph construction unit 119, and a similarity calculation unit 116.

類似度算出装置101の特徴的な構成は、次の通りである。
第1の実施形態における関連単語抽出部14は、単語抽出部13によって抽出された単語に直接関連する関連単語のみを抽出していた。これに対して、本実施形態の関連単語抽出部114は、単語抽出部13によって抽出された単語に直接関連する関連単語を抽出するだけではなく、それらの関連単語に関連する関連単語をも、関連単語として抽出する。つまり、関連単語抽出部114は、元の文書に含まれていた単語に対して複数の段階の関連を持つ関連単語をも抽出する。
また、本実施形態における関連グラフ構築部119は、単語抽出部13によって抽出される単語と、関連単語抽出部114によって抽出される関連単語の、関連を表わすグラフ(関連性データ)を構築する。このグラフにおいて、ノードは抽出される個々の単語であり、エッジは単語間の関連(関係)である。このグラフの詳細については後述する。
また、第1の実施形態における類似性算出部16は、表現増幅部25によって出力された増幅後表現傾向情報(関連単語を含んだ単語のリスト)同士から、類似性を算出した。これに対して、本実施形態の類似性算出部116は、関連グラフ構築部119が構築したグラフに基づき、2つの文書間の類似性を算出する。この類似性の算出方法については後述する。
The characteristic configuration of the similarity calculation apparatus 101 is as follows.
The related word extracting unit 14 in the first embodiment extracts only related words directly related to the word extracted by the word extracting unit 13. On the other hand, the related word extraction unit 114 of the present embodiment not only extracts related words directly related to the words extracted by the word extraction unit 13, but also related words related to those related words, Extract as related words. In other words, the related word extraction unit 114 also extracts related words having a plurality of levels of relationships with words included in the original document.
Further, the relation graph construction unit 119 in the present embodiment constructs a graph (relevance data) representing the relation between the word extracted by the word extraction unit 13 and the related word extracted by the related word extraction unit 114. In this graph, nodes are individual words to be extracted, and edges are associations (relationships) between words. Details of this graph will be described later.
In addition, the similarity calculation unit 16 in the first embodiment calculates the similarity from the amplified expression tendency information (a list of words including related words) output by the expression amplification unit 25. On the other hand, the similarity calculation unit 116 according to the present embodiment calculates the similarity between two documents based on the graph constructed by the related graph construction unit 119. This similarity calculation method will be described later.

図6は、関連グラフ構築部119が構築するグラフのデータ例を示す概略図である。図示するように、関連グラフ構築部119が生成するデータは、ノードと、ノード間を結ぶエッジによって構成される。   FIG. 6 is a schematic diagram illustrating a data example of a graph constructed by the related graph construction unit 119. As shown in the figure, the data generated by the relation graph construction unit 119 includes nodes and edges connecting the nodes.

ノードには3つの種類がある。第1の種類は、文書に対応するノードである。図中では、dおよびdと書かれたノードが、文書に対応するノードである。第2の種類は、文書に出現する単語に対応するノードである。図中では、n,n,n,・・・,nと書かれたノード、およびn´,n´,n´,・・・,n´と書かれたノードである。文書に対応するノードdからエッジによって結ばれているのは、その文書dに出現する単語n,n,n,・・・,nのノードである。文書に対応するノードdからエッジによって結ばれているのは、その文書dに出現する単語n´,n´,n´,・・・,n´のノードである。第3の種類は、関連単語に対応するノードである。関連単語に対応するノードは、図中では丸印で示している。 There are three types of nodes. The first type is a node corresponding to a document. In the figure, the node that says d 0 and d m is the node corresponding to the document. The second type is a node corresponding to a word appearing in the document. In the figure, n 1, n 2, n 3, ···, node labeled n i, and n 1 ', n 2', n 3 ', ···, n j' was labeled node It is. What is connected by an edge from the node d 0 corresponding to the document, the word n 1, n 2, n 3 appearing in the document d 0, · · ·, a node n i. What is connected by an edge from the node d m corresponding to the document, the word n 1 appearing in the document d m ', n 2', n 3 is a node ', ···, n j'. The third type is a node corresponding to a related word. Nodes corresponding to related words are indicated by circles in the figure.

関連グラフ構築部119が構築するグラフのデータにおいて、文書に対応するノードと、その文書において出現する単語に対応するノードとの間には、両者を直接結ぶエッジが存在する。また、単語(関連単語も含む)と単語(関連単語も含む)の間では、両単語が関連する場合に、且つその場合にのみ、両者を直接結ぶエッジが存在する。なお、このエッジは、無向エッジである。言い換えれば、ある単語Aが別の単語Bに関連するとき、逆に単語Bが単語Aに関連する。単語Aが単語Bに関連しないとき、単語Bは単語Aに関連しない。   In the graph data constructed by the relation graph construction unit 119, an edge directly connecting the two and the node corresponding to the document and the node corresponding to the word appearing in the document exist. In addition, there is an edge between the word (including the related word) and the word (including the related word) when both words are related and only in that case. Note that this edge is an undirected edge. In other words, when one word A is related to another word B, conversely, word B is related to word A. When word A is not related to word B, word B is not related to word A.

例えば、文書dの中に「生活習慣病」という単語が含まれており、文書dの中に「たばこ」という単語が含まれている場合、関連単語抽出部114はこれらそれぞれの単語の関連単語を抽出する。そして、関連単語抽出部114が、単語間の関連性として「生活習慣病−高血圧」、「高血圧−喫煙」、「喫煙−たばこ」という関係を獲得すると、関連グラフ構築部119は、これらの単語のノードを順に結ぶエッジを生成する。つまり、「生活習慣病−高血圧」、「高血圧−喫煙」、「喫煙−たばこ」というエッジが生成される。このようにして、両文書間を連結するグラフが構築される。 For example, in the document d 0 contains the word "lifestyle-related diseases", if it contains the word "tobacco" in the document d m, related word extraction section 114 each word these Extract related words. Then, when the related word extraction unit 114 acquires the relationships “lifestyle-related diseases—hypertension”, “hypertension-smoking”, and “smoking-cigarette” as the relationship between the words, the related graph construction unit 119 An edge connecting the nodes in order is generated. That is, edges of “lifestyle-related diseases—hypertension”, “hypertension—smoking”, and “smoking—tobacco” are generated. In this way, a graph connecting both documents is constructed.

グラフを表わすデータの表現方法は様々であるが、一例としてはリレーショナルデータベースを用いる。第1のテーブルは、ノードID(主キー)と、ノード種別と、そのノードに対応する単語の、各列を含む。第1のテーブルでは、ノードごとに行が存在する。第2のテーブルは、エッジID(主キー)と、エッジ始端のノードIDと、エッジ終端のノードIDの、各列を含む。第2のテーブルでは、エッジごとに行が存在する。   There are various ways of expressing data representing a graph, but a relational database is used as an example. The first table includes columns of a node ID (primary key), a node type, and a word corresponding to the node. In the first table, there is a row for each node. The second table includes columns of an edge ID (primary key), an edge start node ID, and an edge end node ID. In the second table, there is a row for each edge.

このようなグラフのデータを構築するため、次の処理を行う。即ち、ある文書のペア(例えば、文書dとd)が与えられ、単語抽出部13がそれぞれの文書に含まれる単語を抽出すると、関連単語抽出部114は、単語抽出部13が抽出した単語のうちの名詞に対して、関連する単語(関連表現)の抽出を行なう。関連単語抽出部114は、文書に含まれる単語に直接関連する関連単語だけではなく、関連単語に関連する関連単語をも抽出する。言い換えれば、関連単語抽出部114は、文書に含まれる単語に直接的または間接的に関連するすべての関連単語を抽出する。但し、設定等に応じて、関連の段階数に上限を設けて、その段階数の範囲内で関連する関連単語のみを関連単語抽出部114が抽出するようにしても良い。関連グラフ構築部119は、両文書のそれぞれの側からの関連単語を調べて、図6に示したグラフのデータを生成する。 In order to construct such graph data, the following processing is performed. That is, when a pair of documents (for example, documents d 0 and d m ) is given and the word extraction unit 13 extracts words included in each document, the related word extraction unit 114 extracts the words extracted by the word extraction unit 13. A related word (related expression) is extracted for a noun in the word. The related word extracting unit 114 extracts not only related words directly related to the words included in the document but also related words related to the related words. In other words, the related word extraction unit 114 extracts all related words directly or indirectly related to the words included in the document. However, depending on the setting or the like, an upper limit may be set on the number of related stages, and the related word extracting unit 114 may extract only related words within the range of the number of stages. The related graph construction unit 119 examines related words from the respective sides of both documents, and generates data of the graph shown in FIG.

つまり、表現増幅部125は、表現と、前記表現に関連する関連表現との関係を用いて、単語抽出部13(表現抽出部)によって抽出された表現に関連する関連表現を抽出することによって、単語抽出部13によって抽出された表現傾向情報を増幅し、増幅後表現傾向情報を出力する。ここで、表現傾向情報は、単語抽出部13が抽出した単語のリスト(図6において、「文書に出現する単語」として示されている単語)である。また、増幅後表現傾向情報は、図6において、関連単語をも含んだすべてのノードの情報である。
また、表現増幅部125は、第1のテキストデータ(dに相当)を元に増幅した第1の増幅後表現傾向情報に含まれる表現と、第2のテキストデータ(dに相当)を元に増幅した第2の増幅後表現傾向情報に含まれる表現とに対応するノードと、さらに第1のテキストデータに対応するノードと、第2のテキストデータに対応するノードとに関して、ノード間の関連の有無を表わすグラフデータ(関連性データ)を生成するものである。
つまり、第1の実施形態における表現増幅部25が一段階のみの関連性に基づいて表現傾向情報を増幅したのに対して、本実施形態の表現増幅部125は複数段階(段階数に特に上限を設けないこととしても良い)の関連性に基づいて表現傾向情報を増幅している。
That is, the expression amplifying unit 125 extracts a related expression related to the expression extracted by the word extracting unit 13 (expression extracting unit) using the relationship between the expression and the related expression related to the expression. The expression tendency information extracted by the word extraction unit 13 is amplified and the amplified expression tendency information is output. Here, the expression tendency information is a list of words extracted by the word extraction unit 13 (words indicated as “words appearing in the document” in FIG. 6). Further, the post-amplification expression tendency information is information of all nodes including related words in FIG.
Furthermore, expression amplifying unit 125 includes a representation contained in the first post-amplification expression trend information obtained by amplifying the first text data (corresponding to d 0) based on the second text data (corresponding to d m) With respect to the node corresponding to the expression included in the second amplified expression tendency information that was originally amplified, the node corresponding to the first text data, and the node corresponding to the second text data, Graph data (relevance data) representing the presence or absence of association is generated.
That is, the expression amplifying unit 25 in the first embodiment amplifies the expression tendency information based on the relevance of only one stage, whereas the expression amplifying part 125 of the present embodiment has a plurality of stages (particularly the upper limit on the number of stages Expression tendency information is amplified based on the relevance).

関連グラフ構築部119が生成したグラフを元に、類似性算出部116は、その2つの文書がどの程度強く連結されているかを評価することによって、2つの文書の類似性を算出する。その手順を以下に述べる。なお、類似性算出部116は、例えば、Green Measures(グリーン・メジャーズ)のアルゴリズムを利用する。Green Measuresのアルゴリズムに関する文献は、次の通りである。参考文献 Oliver Yann,Senellart Pierre,Finding Related Pages Using Green Measures: An Illustration with Wikipedia,Proceedings of the Twenty-Second AAAI Conference on Artificial Intelligence,pp.1427-1433,2007年.   Based on the graph generated by the related graph construction unit 119, the similarity calculation unit 116 calculates the similarity between the two documents by evaluating how strongly the two documents are connected. The procedure is described below. Note that the similarity calculation unit 116 uses, for example, an algorithm of Green Measures. The literature on the Green Measures algorithm is as follows. References Oliver Yann, Senellart Pierre, Finding Related Pages Using Green Measures: An Illustration with Wikipedia, Proceedings of the Twenty-Second AAAI Conference on Artificial Intelligence, pp. 1427-1433, 2007.

文書間の結びつきを表わすグラフが与えられたとき、あるノードから他のノードへ遷移する確率を行列Mで表現する。行列Mの行および列は、それぞれグラフ内のノードに対応する。そして、ノードpに対応する行で且つノードqに対応する列の行列要素は、ノードpからノードqへ遷移する確率の値である。この行列Mを用いて、下の式(1)でGreen Matrix(グリーン行列)を定義する。   When a graph representing the connection between documents is given, the probability of transition from one node to another is represented by a matrix M. Each row and column of the matrix M corresponds to a node in the graph. The matrix element in the row corresponding to the node p and the column corresponding to the node q is the value of the probability of transition from the node p to the node q. Using this matrix M, a Green Matrix is defined by the following equation (1).

Figure 2013239132
Figure 2013239132

式(1)において、Mは、t回目のランダムウォークのステップにおける遷移行列を示す。つまり、行列Mの、ノードpに対応する行で且つノードqに対応する列の要素は、t回のランダムウォークの後に、ノードpからノードqへ遷移する確率の値である。また、Mは、ランダムウォークを無限回繰り返したときに収束する遷移行列の極限値である。式(1)で定義した行列Gの、ノードpに対応する行で且つノードqに対応する列の要素は、ノードpがノードqにどの程度関連するかを示す値である。ノード間の最終的な関連度スコアは、Green Matrixを利用して、下の式(2)により定義される。 In Equation (1), M t represents a transition matrix in the t-th random walk step. That is, elements of the matrix of M t, column corresponding and to node q in the row corresponding to the node p, after t time random walk is a value of the probability of transition from the node p to node q. M∞ is the limit value of the transition matrix that converges when the random walk is repeated infinitely. The element of the column corresponding to the node q of the row | line | column corresponding to the node p of the matrix G defined by Formula (1) is a value which shows how much the node p is related to the node q. The final relevance score between nodes is defined by the following formula (2) using Green Matrix.

Figure 2013239132
Figure 2013239132

式(2)において、Gpqは、行列において、ノードpに対応する行で且つノードqに対応する列の要素である。またνは、ベクトルνにおいて、ノードqに対応する要素である。そのベクトルνは、均衡尺度(equilibrium measure)であり、任意のベクトルμを出発点として、無限回の遷移を繰り返したときに収束する先のベクトルである。つまりμM=νであり、νは、最終的にどのノードに遷移しやすいかを確率値として表わすベクトルである。そして、log(1/ν)は、補正のためのファクターである。つまり、νの値は、任意のベクトルμから遷移を繰り返した後に収束する可能性の高さを表わす。よって、そのような可能性の高さに応じて、そのノードに関するスコアを補正する。0<ν<1であるから、言うまでも無く、0<log(1/ν)であり、また、νの値が大きいほど、log(1/ν)の値は小さい。喩えるなら、このlog(1/ν)は、情報検索で用いられるtf−idf(term frequency - inverse document frequency)値におけるidf値と似た作用をする係数である。つまり、S(q)は、ノードpからノードqにどの程度遷移しやすいかを表わす値であり、ノードpとノードqとの関連性の強さを表わすものと見なせる。 In Expression (2), G pq is an element of a row corresponding to the node p and a column corresponding to the node q in the matrix. Further, ν q is an element corresponding to the node q in the vector ν. The vector ν is an equilibria measure, and is a vector that converges when an infinite number of transitions are repeated starting from an arbitrary vector μ. That is, μM = ν, and ν is a vector that expresses as a probability value which node is likely to make a final transition. Log (1 / ν q ) is a factor for correction. That is, the value of ν q represents a high possibility of convergence after repeating the transition from an arbitrary vector μ. Therefore, the score related to the node is corrected according to such a high possibility. Since 0 <ν q <1, it goes without saying that 0 <log (1 / ν q ), and the larger the value of ν q , the smaller the value of log (1 / ν q ). In other words, this log (1 / ν q ) is a coefficient that acts like an idf value in a tf-idf (term frequency-inverse document frequency) value used in information retrieval. That is, S p (q) is a value that indicates how easily the node p transitions to the node q, and can be regarded as indicating the strength of the relationship between the node p and the node q.

そして、上記の式(2)を利用して、類似性算出部116は、次に説明する、Sdirect(d,d)またはSrelated(d,d)のいずれかを用いて、文書dとdとの間の類似度を算出する(1≦m≦M)。 Then, using the above equation (2), the similarity calculating unit 116 will now be described, using either S direct (d 0, d m ) or S related (d 0, d m ) calculates the similarity between the document d 0 and d m (1 ≦ m ≦ M ).

[類似度算出手法1 : dに与えられる値のみを利用]
この手法では、グラフにおけるノードd,dに関して、式(2)を直接用いることにより、2つの文書d,dの類似度Sdirect(d,d)を算出する。つまり、類似性算出部116は、下の式(3)により文書dとdの間の類似度(つまり、文書のノードdとdの間の類似度)を算出する。
[Similarity calculation method 1: use only the values given in the d m]
In this approach, with respect to node d 0, d m in the graph, by using equation (2) directly calculates the two documents d 0, d m of the similarity S direct (d 0, d m ). In other words, the similarity calculation unit 116 calculates the similarity between the documents d 0 and d m by the equation below (3) (i.e., similarity between the nodes d 0 and d m of the document).

Figure 2013239132
Figure 2013239132

なお、ノード間を結ぶエッジに与えられる重みは、次の通りである。即ち、文書のノードから単語のノードへのエッジについては下の式(4)で重みが与えられ、単語のノード相互間のエッジについては下の式(5)で重みが与えられる。   The weights given to the edges connecting the nodes are as follows. In other words, the weight from the node of the document to the word node is given by the following expression (4), and the weight between the edges of the word nodes is given by the following expression (5).

Figure 2013239132
Figure 2013239132

Figure 2013239132
Figure 2013239132

なお、式(4)において、dは文書のノード(0≦m≦M)であり、nは文書dに出現する単語のノードである。また、tf(n)は、文書dにおけるノードnに該当する単語の出現頻度であり、idf(n)は全文書におけるノードnに該当する単語の逆文書頻度である。 In the equation (4), d m is a node of the document (0 ≦ m ≦ M), n p is the node of the words appearing in the document d m. Further, tf (n p) is the word frequency corresponding to the node n p of the document d m, idf (n p) is the inverse document frequency of the word corresponding to the node n p in all documents.

また、式(5)において、Znpとしては、例えば、単語ノードnと他のノードとを結んでいるエッジの総数を用いる。あるいは、単語ノードnに関して総和が1となるように、適宜、エッジの重みe(n,n)を定めても良い。 Further, in the equation (5), the Z np, for example, a total number of edges has signed the word node n p and the other nodes. Alternatively, the edge weight e (n p , n q ) may be determined as appropriate so that the sum total is 1 for the word node n p .

式(4)および式(5)で与えられるエッジの重みを、前出の行列Mの要素の値とする。但し、ノード同士がエッジで直接結ばれていない場合には、そのノード間に相当する行列要素の値は0である。   The edge weights given by the equations (4) and (5) are set as the values of the elements of the matrix M described above. However, if the nodes are not directly connected by edges, the value of the matrix element corresponding to the nodes is 0.

つまり、この「手法1」では、類似性算出部116は、式(3)を用いて、グラフデータに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、第1のテキストデータに対応するノードから第2のテキストデータに対応するノードまでの関連度スコアを、類似度として算出する。   That is, in this “method 1”, the similarity calculation unit 116 uses the equation (3) to calculate data representing the ease of transition from node to node based on the graph data, and the relevance score between the nodes. And the relevance score from the node corresponding to the first text data to the node corresponding to the second text data is calculated as the similarity.

[類似度算出手法2 : dからdへのパス上の全ノードでの関連度スコアを利用]
この手法では、グラフにおけるノードdからdへのパス上にある全ノードに与えられた関連度スコアの値の合計を利用して、2つの文書d,dの類似度Srelated(d,d)を算出する。つまり、類似性算出部116は、下の式(6)により文書dとdの間の類似度を算出する。
[Similarity calculation method 2: Using the relevance scores of all nodes on the path from d 0 to d m]
In this method, by using the sum of the values of the relevance scores given to all nodes on the path from node d 0 in the graph to d m, 2 single document d 0, d m of the similarity S related ( d 0 , d m ) is calculated. In other words, the similarity calculation unit 116 calculates the similarity between the documents d 0 and d m by the equation below (6).

Figure 2013239132
Figure 2013239132

式(6)において、vertex(d,d)は、ノードdからノードdへのパス上にあるすべてのノード(ノードdを含む)の集合である。なお、この「手法2」においても、「手法1」の場合と同様に、ノードを結ぶエッジの重みは、式(4)および式(5)で与えられる。また、エッジによって直接結ばれないノード間に相当する行列Mの要素の値は0である。 In the formula (6), vertex (d 0 , d m) is the set of all nodes (including node d m) in the node d 0 on a path to the node d m. In this “method 2”, as in the case of “method 1”, the weight of the edge connecting the nodes is given by the equations (4) and (5). The value of the element of the matrix M corresponding to the node that is not directly connected by the edge is 0.

つまり、この「手法2」では、類似性算出部116は、式(6)を用いて、グラフデータに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、第1のテキストデータに対応するノードから、第2のテキストデータに対応するノードまでのパス上に含まれる全てのノードまでの、関連度スコアの総和を、類似度として算出する。   That is, in this “method 2”, the similarity calculation unit 116 uses the equation (6) to calculate data representing the ease of transition from node to node based on the graph data, and the relevance score between the nodes. And the sum of the relevance scores from the node corresponding to the first text data to all the nodes included on the path from the node corresponding to the second text data is calculated as the similarity.

図7は、図6に示したグラフにおいて、手法1を用いてノードdとdとの間の類似度を算出する際に用いる関連度スコアの範囲を示す概略図である。図中の太線枠が、その範囲を示す。つまり、手法1では、類似性算出部116は、ノードdから、太線枠に含まれるノードdへの関連度スコアのみを用いて、ノードdとdとの間の類似度を算出する。
図8は、図6に示したグラフにおいて、手法2を用いてノードdとdとの間の類似度を算出する際に用いる関連度スコアの範囲を示す概略図である。図中の太線枠が、その範囲を示す。つまり、手法2では、類似性算出部116は、ノードdから、太線枠に含まれる全てのノードへの関連度スコアを用いて、ノードdとdとの間の類似度を算出する。
なお、類似度を算出する際に、手法1を用いるか、手法2を用いるかは、任意であり、適宜決めれば良い。
Figure 7 is the graph shown in FIG. 6 is a schematic diagram showing a range of relevance scores to be used for calculating the degree of similarity between the node d 0 and d m using method 1. The bold line frame in the figure indicates the range. That is, in the method 1, the similarity calculating unit 116 calculates the node d 0, using only relevance score to the node d m included in the thick frame, a similarity between the node d 0 and d m To do.
Figure 8 is the graph shown in FIG. 6 is a schematic diagram showing a range of relevance scores to be used for calculating the degree of similarity between the node d 0 and d m using the technique 2. The bold line frame in the figure indicates the range. That is, in the method 2, the similarity calculating unit 116, from node d 0, with relevance scores to all nodes included in the thick frame, and calculates the degree of similarity between the node d 0 and d m .
In calculating the similarity, it is arbitrary whether Method 1 or Method 2 is used, and may be determined as appropriate.

なお、上述した実施形態における類似番組検索装置の全部または一部の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。   In addition, you may make it implement | achieve the function of all or one part of the similar program search apparatus in embodiment mentioned above with a computer. In that case, a program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on this recording medium may be read into a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible disk, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, a “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory inside a computer system serving as a server or a client in that case may be included, and a program that holds a program for a certain period of time. The program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system.

<変形例>
以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。なお、可能な組合せにおいて、下に列挙する複数の変形例を組み合わせて実施しても良い。
<Modification>
Although the embodiment has been described above, the present invention can also be implemented in the following modified example. In a possible combination, a plurality of modified examples listed below may be combined.

変形例1:上記実施形態では、番組概要文から単語を抽出し、それらの単語の関連単語をさらに抽出して、番組概要文間の類似性を算出した。この変形例では、単語の代わりに、文節や、単語Nグラム(N個の単語の連鎖)や、文字Nグラム(N個の文字の連鎖)などといった言語による表現を用いて、上記実施形態と同様の計算を行なう。   Modification 1: In the above embodiment, words are extracted from the program summary sentence, and related words of those words are further extracted to calculate the similarity between the program summary sentences. In this modification, instead of a word, a phrase, a word N-gram (chain of N words), a character N-gram (chain of N characters), or the like is used to express the above embodiment and Similar calculations are performed.

変形例2:上記実施形態では、番組概要文から抽出された単語の集合と、それらの単語の関連単語(但し、フィルタリング処理によって除外された関連単語を除く)の集合との、和集合を用いて、番組概要文間の類似性を算出した。この変形例では、番組概要文から直接抽出された単語の集合を用いず、関連単語(但し、フィルタリング処理によって除外された関連単語を除く)の集合(これもまた、増幅後表現傾向情報である)のみを用いて、番組概要文間の類似性を算出する。   Modification 2: In the above embodiment, a union of a set of words extracted from the program summary sentence and a set of related words of these words (excluding related words excluded by the filtering process) is used. Thus, the similarity between program summary sentences was calculated. In this modification, a set of related words (excluding related words excluded by filtering processing) (which is also the expression tendency information after amplification) is not used, but a set of words extracted directly from the program summary sentence is not used. ) To calculate the similarity between program summary sentences.

変形例3:上記実施形態では、類似番組検索装置2または102それぞれの内部に類似度算出装置1または101を設ける構成とした。この変形例では、類似度算出装置1または101のみの構成を実施する。なお、この類似度算出装置1または101に入力されるテキストデータは、番組の概要文に限らず、一般のテキストデータで良い。そのような場合にも、類似度算出装置1は、上記実施形態に記載した場合と同様の作用および効果を有する。   Modification 3: In the above embodiment, the similarity calculation device 1 or 101 is provided inside the similar program search device 2 or 102, respectively. In this modification, only the similarity calculation device 1 or 101 is configured. The text data input to the similarity calculation device 1 or 101 is not limited to the program summary sentence, and may be general text data. Even in such a case, the similarity calculation device 1 has the same operations and effects as those described in the above embodiment.

変形例4:上記実施形態では、表現増幅部25の一部として、関連単語フィルタリング部15を設けた。この変形例では、関連単語フィルタリング部15を設けず、フィルタリング処理を行なわない。つまり、関連単語抽出部14が出力する関連単語をフィルタリングせずに、増幅後表現傾向情報に用いる。   Modification 4: In the above embodiment, the related word filtering unit 15 is provided as a part of the expression amplification unit 25. In this modification, the related word filtering unit 15 is not provided and the filtering process is not performed. That is, the related word output from the related word extracting unit 14 is used for the expression tendency information after amplification without filtering.

変形例5:第2の実施形態では、ノード間の関連性の強さを表わす尺度として、Green Measuresを用いたが、代わりに、ノード間の関連性の強さを表わす他の尺度を用いても良い。例えば、下記の参考文献に記載されているページランクのアルゴリズムを利用しても良い。参考文献 Sergey Brin,Lawrence Page,The Anatomy of a Large-Scale Hypertextual Web Search Engine,[URL http://infolab.stanford.edu/~backrub/google.html],2012年5月1日ダウンロード   Modification 5: In the second embodiment, Green Measures is used as a measure representing the strength of association between nodes. Instead, another measure representing the strength of association between nodes is used. Also good. For example, a page rank algorithm described in the following reference may be used. References Sergey Brin, Lawrence Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine, [URL http://infolab.stanford.edu/~backrub/google.html], May 1, 2012 download

変形例6:第2の実施形態では、文書dから文書d(1≦m≦M)への類似度を算出した。第2の実施形態で用いる方法では、類似度の定義からも明らかなように、ノードaからノードbへの類似度と、ノードbからノードaへの類似度とは、異なる値を取り得る。変形例6では、第2の実施形態による数式を用いて、但し方向のみを逆転させて、文書dから文書dへの類似度を算出し、両文書間の類似度とする。さらに、両方向の類似度をそれぞれ計算してそれらの平均値または加重平均値を取っても良い。 Modification 6: In the second embodiment, the similarity from the document d 0 to the document d m (1 ≦ m ≦ M) is calculated. In the method used in the second embodiment, as is clear from the definition of similarity, the similarity from node a to node b and the similarity from node b to node a can take different values. In Modification 6, using equation according to the second embodiment, except by reversing only the direction to calculate the similarity of the documents d 0 from the document d m, the degree of similarity between the two documents. Further, the similarity in both directions may be calculated to obtain an average value or a weighted average value thereof.

変形例7:第2の実施形態では、文書ノードから単語ノードへの重みとして、tf−idf値を用いた(式(4))。変形例7では、tf−idf値の代わりに、予め単語ごとに定義された重要度のスコア(あるいはそれらのスコアそれぞれをスコアの合計値で除してスケーリングした値)を、文書ノードから単語ノードへの重みとして用いる。   Modification 7: In the second embodiment, the tf-idf value is used as the weight from the document node to the word node (formula (4)). In the modified example 7, instead of the tf-idf value, the importance score defined in advance for each word (or a value obtained by dividing each score by the total value of the scores) is converted from the document node to the word node. Used as a weight to

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.

第1の実施形態による類似番組検索装置2を実施し、NHKのテレビ番組に関する番組概要文を用いて、指定番組に対する、各比較対象番組の類似度の算出と、比較対象番組のランキングを行なった。   The similar program search apparatus 2 according to the first embodiment is implemented, and the similarity of each comparison target program is calculated for the designated program and the comparison target program ranking is performed using the program summary sentence regarding the NHK television program. .

指定番組のタイトルは「プラネットベービーズ タンザニア 彫刻の民の子育て」であり、その番組概要文(dに相当)は、「東アフリカを代表する伝統芸術マコンデ彫刻の彫刻家の一家を取材。時代の変化を感じながらも伝統を守ろうとする彫刻の民の子育てを紹介します。」であった。 Of the specified program title is "parenting people of Planet-based beads Tanzania sculpture", the program summary statement (equivalent to d 0) is, the sculptor of the family of traditional arts Makonde sculpture representing the "East Africa coverage. Era I will introduce the child-rearing of the sculpture people who want to keep the tradition while feeling the change. "

8種類の比較対象番組の概要文の各々について、算出された類似度およびランキングは次の通りであった。なお、第5位に4つの番組の概要文がランキングされ、これらの類似度はいずれも0.001であった。
ランキング1位。類似度は、0.321。番組タイトルは「新日曜美術館 彫刻家・舟越桂」。この番組の概要文は、「現代に生きる人々の姿を彫り続けている彫刻家・舟越桂。従来の人物彫刻にはない独特の存在感を放つ舟越の彫刻は、見る人に、今にも語りかけてきそうな印象を与えます。誰もが胸の内に抱える喜びや悲しみ、そして不安。一人の人間として感じることを、舟越は彫刻に彫り込みます。舟越本人の登場を通して、彫刻家・舟越桂の世界をたどります。」である。
ランキング2位。類似度は、0.141。番組タイトルは「世界ふれあい街歩き ラグーサ」。この番組の概要文は「ラグーサは新市街と旧市街が、谷を挟んで2つの山に広がっています。新市街の碁盤の目のように整った道沿いには、飾り窓や彫刻が美しい後期バロック様式の建物が並びます。旧市街イブラは、迷宮のように入り組んだ街です。人の顔の彫刻が支える不思議なベランダを眺めたり、バロック建築のサン・ジョルジョ大聖堂の鐘の音を聞いたりします。まるで中世にタイムスリップしたかような不思議な感覚を味わう街歩きです。」である。
The degree of similarity and ranking calculated for each of the summary sentences of the eight types of comparison target programs were as follows. In addition, the summary sentences of the four programs were ranked in the fifth place, and the degree of similarity was 0.001.
The ranking first place. The similarity is 0.321. The program title is “New Sunday Museum Sculptor Katsura Funakoshi”. The outline of this program is: “Sculptor Katsura Funakoshi, who continues to carve people living in the modern age. Funakoshi's sculpture, which has a unique presence not found in traditional human sculptures, has been spoken to the viewers. Funakoshi engraves on the sculpture that everyone feels as a human being, and the world of sculptor Katsura Funakoshi through the appearance of himself. Follow. "
The ranking second place. The similarity is 0.141. The program title is “Walking around the world Ragusa”. The outline of this program is: “Ragusa has a new town and an old town spread across two mountains across the valley. Barraque-style buildings line the old city of Ibra, a labyrinthic city where you can see the mysterious veranda supported by human face sculptures and hear the bells of the baroque San Giorgio Cathedral It ’s a city walk with a mysterious sensation as if you were traveling back in time to the Middle Ages. ”

ランキング3位。類似度は、0.092。番組タイトルは「美の壺 能面」。この番組の概要文は「一見、無表情でどこか恐ろしげな印象を受ける「能面」。しかし、よく見ると、角度によってその表情が多様に変化していくことが分かります。能面には喜怒哀楽を生み出すための彫刻の技や、奥深さを表現するための彩色法など、さまざまな匠(たくみ)の技が込められています。美術品にもまさる神秘性を放つ能面。600年以上にわたって培われてきた能面づくりの技とその美しさを鑑賞するツボを紹介します。」である。
ランキング4位。類似度は、0.037。番組タイトルは「直伝 和の極意 第7回 茶の湯 裏千家」。この番組の概要文は「一服のお茶を仲立ちとして、亭主と客が心を通わせる「茶の湯」。400年以上にわたる伝統を誇る“和”の趣味の代表選手のひとつだ。千利休の伝統を受け継ぐ三千家(表千家、裏千家、武者小路千家)のなかから、裏千家の“茶の湯の極意”に迫る9回シリーズ。第7回は、家庭で簡単に和菓子を作る方法について、伝える。」である。
The ranking third place. The similarity is 0.092. The program title is “Beautiful Noh mask”. The summary of this program is “Noh mask, which has a seemingly frightening impression with no expression. However, if you look closely, you can see that the expression changes variously depending on the angle. The Noh mask contains various craftsmanship techniques, such as sculpture techniques to create emotions and coloring techniques to express depth. A Noh mask that has a mysterious character that surpasses that of a work of art. Introducing Noh masks that have been cultivated for over 600 years and the points to appreciate their beauty. Is.
4th in the ranking. The similarity is 0.037. The title of the program is “Nadaden Kazu no Kyokai 7th Chanoyu Urasenke”. The summary of this program is “Cha no Yu”, where the owner and guests can communicate with each other through a cup of tea. It is one of the representative players of the “Japanese” hobby, boasting a tradition of over 400 years. The 9th series, approaching the spirit of the tea ceremony of the Urasenke, from the 3 thousand families (Omotesen, Urasenke, and Samurai Senji Senya) that inherited the tradition of Senrikyu. The seventh will tell you how to make Japanese sweets easily at home. Is.

ランキング5位の第1番目。類似度は、0.001。番組タイトルは「BS世界ドキュ 前編 石油支配OPEC50年の闘い」。この番組の概要文は「前編は1960年のOPEC結成の背景から、七大石油会社(メジャー)が握っていた“石油支配”をOPECが、いかにして奪い取ったのかを探る。1973年10月、OPECは石油の価格決定権を握り、世界最強のカルテルを形成し絶頂期を迎える。しかし急激な価格高騰は、世界にオイルショックを引き起こし、OPECのその後の運命を変えてしまう。」である。
ランキング5位の第2番目。類似度は、0.001。番組タイトルは「アジアンスマイル 四つ子ナースの物語 韓国」。この番組の概要文は「21年前、韓国インチョンの病院で誕生した四つ子の姉妹が、2010年の看護師国家試験にそろって合格。全員が生まれた病院で働き始めた。当時の韓国で、四つ子はきわめて例が少ないなかでの出産だった。4人の中でも小さく生まれたため、ただ1人集中治療室に入れられた三女ソル。新米ナースとして、新生児集中治療室で赤ちゃんの看護を担当することになった。生まれたばかりの小さな命を守ろうと奮闘する、ソルの日々に密着。」である。
1st in the ranking 5th. The similarity is 0.001. The title of the program is “BS World Doc Part 1 Struggle for Oil Control OPEC 50 Years”. The summary of this program is: “The first part explores how OPEC took away the“ dominance of oil ”that the seven major oil companies (major) had in the background of the formation of OPEC in 1960. October 1973 , OPEC has the right to determine the price of oil and forms the world's strongest cartel, reaching its peak, but a sharp rise in prices will cause an oil shock in the world and change OPEC's subsequent fate. " .
2nd in the ranking. The similarity is 0.001. The program title is “Asian Smile Yotsuko Nurse Story Korea”. The summary of this program is: “Sisters of the four children born 21 years ago at the hospital in Incheon, South Korea passed the National Examination for Nurses 2010. All started working at the hospital where they were born. The quadruple was a child with very few cases.Since she was born small among the four, she was the only maid who was put in the intensive care unit. I was in charge of nursing, and I was in close contact with Sol ’s days struggling to protect the little new life. ”

ランキング5位の第3番目。類似度は、0.001。番組タイトルは「ハイビジョン特集 日本人イヌイット親子三代」。この番組の概要文は「極北のグリーンランドに住みついた日本人、大島育雄さん(63)。イヌイットとして生きる親子三代の狩猟の暮らしと孫の成長を、家族の目線で記録した貴重なビデオ日記。」である。
ランキング5位の第4番目。類似度は、0.001。番組タイトルは「ニューヨークウエーブ 砂漠に出現!巨大なアートの祭典」。この番組の概要文は「毎年夏、アメリカのネバダ州の砂漠に巨大なアート作品が出現する。野外で開かれる世界最大のアートの祭典「バーニングマン」だ。地上6メートルのタンポポなど、巨大なアート作品が200点あまり。ダンスや音楽のパフォーマンスが、夜通し開かれる。5万人を超える参加者がテントで共同生活をしながら、最新のアートを楽しむ1週間。そんな不思議な世界に、番組リポーターのはなが潜入。砂漠で繰り広げられる、真夏の夢を追う。」である。
3rd in the ranking. The similarity is 0.001. The program title is “High-Vision Special Japanese Inuit Parent and Child Three Generations”. The outline of this program is “Japanese, Ikuo Oshima (63) who lived in Greenland in the Arctic. This is a valuable video diary that recorded the hunting life and growth of grandchildren and their third generation living as an Inuit from the perspective of their family. Is.
4th in the ranking. The similarity is 0.001. The program title is “Appearance in the New York Wave Desert! The summary of the program is “Every summer, a huge piece of art appears in the desert of Nevada, USA. The world ’s largest art festival“ Burning Man ”is held outdoors. There are about 200 huge works of art such as dandelions 6 meters above the ground. Dance and music performances are held all night. A week of over 50,000 participants enjoying the latest art while living together in a tent. In such a strange world, program reporter Hana has infiltrated. Follow the midsummer dreams unfolded in the desert. Is.

第2の実施形態による類似番組検索装置102を実施し、その評価実験を行なった。まず、2010年9月から2011年5月までに「NHKオンデマンド」(番組のオンデマンド配信サービス)に登録されていた25,769番組から、以下の制約のもとで352番組をランダムにサンプルした。
制約1:番組タイトルが同じ番組は取り出さない(例えば、「NHKスペシャル」は1番組のみサンプル)。
制約2:関連番組を2番組以上持つ。
The similar program search apparatus 102 according to the second embodiment was implemented and its evaluation experiment was performed. First, 352 programs were randomly sampled from 25,769 programs registered in “NHK On Demand” (program on-demand distribution service) from September 2010 to May 2011 under the following restrictions: did.
Constraint 1: A program with the same program title is not taken out (for example, “NHK Special” is a sample of only one program).
Constraint 2: Have two or more related programs.

次に、NHKオンデマンドで提示された352番組の関連番組を対象として、3名のアノテータにより、サンプルした番組とその関連番組との間での類似性をランキングする作業を行なった。各番組に関する関連番組はOkapi−BM25の指標を利用した手法で抽出され、一つの番組に対して平均10.4個の関連番組が提示されていた。上記3名のアノテータが付与したランキング結果は、その順位相関(Spearman’s rank correlation)の平均が0.565であった。これは、一定の一致度であったと解釈できる。最終的に3名のアノテータが付けた類似性のランクを平均し、平均ランクの昇順に類似すると判断したデータを基準として、このデータと、各々の手法によるランクとを比較することにより、評価を行なった。   Next, for the related programs of 352 programs presented on NHK on-demand, the work of ranking the similarity between the sampled programs and the related programs was performed by three annotators. Related programs related to each program were extracted by a technique using the index of Okapi-BM25, and an average of 10.4 related programs were presented for one program. The ranking result given by the three annotators mentioned above had an average rank correlation (Spearman's rank correlation) of 0.565. This can be interpreted as a certain degree of coincidence. Finally, the ranks of similarity assigned by the three annotators were averaged, and the evaluation was made by comparing this data with the ranks of each method based on the data judged to be similar in ascending order of the average rank. I did it.

ベースライン手法: 文書pに出現する単語nに対してtf−idfによる重みを与えて文書を単語のベクトルで表現する。2つの文書間の類似性を、これら2つの文書に対応するベクトル間のコサイン類似度により評価する。
第1の実施形態による手法: 単語間関係を用いて文書に出現する単語を拡張(単語集合を増幅)し、増幅後の単語を要素とするベクトルで文書を表現する。2つの文書間の類似性を、これら2つの文書に対応するベクトル間のコサイン類似度により評価する。
第2の実施形態による「手法1」:図7に示した範囲のノードへの関連性スコアを用いて、文書間の類似性を評価する。
第2の実施形態による「手法2」:図8に示した範囲の全てのノードへの関連性スコアの総和を用いて、文書間の類似性を評価する。
Baseline method: A word is expressed by a vector of words by giving a weight by tf-idf to a word n appearing in the document p. Similarity between two documents is evaluated by cosine similarity between vectors corresponding to these two documents.
Method according to the first embodiment: A word appearing in a document is expanded (a word set is amplified) using a word relationship, and the document is expressed by a vector having the amplified word as an element. Similarity between two documents is evaluated by cosine similarity between vectors corresponding to these two documents.
Method 1” according to the second embodiment: Using the relevance score to the nodes in the range shown in FIG. 7, the similarity between documents is evaluated.
Method 2” according to the second embodiment: The similarity between documents is evaluated using the sum of the relevance scores to all the nodes in the range shown in FIG.

ランダムサンプルした352番組とその関連番組に対して、上記の各手法を適用して関連番組のリランキング処理を行ない、これらの結果と、アノテータにより生成した基準データとの相関を、Spearman’s rank correlationにより評価した。その結果、ベースライン手法の相関値は、0.350であった。第1の実施形態による手法の相関値は、0.371であった。第2の実施形態による「手法1」の相関値は、0.351であった。第2の実施形態による「手法2」の相関値は、0.425であった。実施形態による手法は、いずれも、ベースライン手法よりも、人手によるランキング結果に近い結果が得られた。特に、第2の実施形態による「手法2」で、良い結果が得られた。   The above-mentioned methods are applied to the randomly sampled 352 programs and related programs, and related programs are reranked. The correlation between these results and the reference data generated by the annotator is calculated using Spearman's rank correlation. evaluated. As a result, the correlation value of the baseline method was 0.350. The correlation value of the method according to the first embodiment was 0.371. The correlation value of “Method 1” according to the second embodiment was 0.351. The correlation value of “Method 2” according to the second embodiment was 0.425. In any of the methods according to the embodiment, a result closer to the manual ranking result was obtained than in the baseline method. In particular, good results were obtained with “Method 2” according to the second embodiment.

本発明は、一般的な自然言語処理において、テキスト同士の類似度を算出するために利用できる。また、インターネット等の通信を介して、テキストを用いた情報を提示するために利用できる。また、番組コンテンツの推薦のために利用できる。そのような番組推薦の技術を、番組のランキング処理や、放送等の受信装置や、ビデオオンデマンドのサービスなどに利用できる。   The present invention can be used to calculate the similarity between texts in general natural language processing. It can also be used to present information using text via communication such as the Internet. It can also be used to recommend program content. Such a program recommendation technique can be used for a program ranking process, a broadcast receiving apparatus, a video-on-demand service, and the like.

1,101 類似度算出装置
2,102 類似番組検索装置
11 番組情報記憶部
12 文書読込部
13 単語抽出部(表現抽出部)
14,114 関連単語抽出部(関連表現抽出部)
15 関連単語フィルタリング部(関連表現フィルタリング部)
16,116 類似性算出部
17 ランキング部
18 検索結果出力部
25,125 表現増幅部
119 関連グラフ構築部
1,101 Similarity Calculation Device 2,102 Similar Program Search Device 11 Program Information Storage Unit 12 Document Reading Unit 13 Word Extraction Unit (Expression Extraction Unit)
14,114 Related Word Extraction Unit (Related Expression Extraction Unit)
15 Related Word Filtering Unit (Related Expression Filtering Unit)
16, 116 Similarity calculation unit 17 Ranking unit 18 Search result output unit 25, 125 Expression amplification unit 119 Related graph construction unit

Claims (8)

テキストデータから表現を抽出することによって前記表現の種類の出現傾向を表わす表現傾向情報を求める表現抽出部と、
表現と前記表現に関連する関連表現との関係を用いて、前記表現抽出部によって抽出された表現に関連する前記関連表現を抽出することによって前記表現抽出部によって抽出された前記表現傾向情報を増幅し、増幅後表現傾向情報を出力する表現増幅部と、
前記表現抽出部に入力される第1のテキストデータを元に前記表現増幅部から出力される第1の増幅後表現傾向情報と、前記表現抽出部に入力される第2のテキストデータを元に前記表現増幅部から出力される第2の増幅後表現傾向情報との間の関係に基づく、前記第1のテキストデータと前記第2のテキストデータとの間の類似度を算出する類似性算出部と、
を具備することを特徴とする類似度算出装置。
An expression extraction unit for obtaining expression tendency information representing an appearance tendency of the type of expression by extracting an expression from text data;
Amplifying the expression tendency information extracted by the expression extraction unit by extracting the related expression related to the expression extracted by the expression extraction unit using the relationship between the expression and the related expression related to the expression An expression amplifying unit that outputs the expression tendency information after amplification;
Based on the first post-amplification expression tendency information output from the expression amplifier based on the first text data input to the expression extractor and the second text data input to the expression extractor A similarity calculation unit that calculates a similarity between the first text data and the second text data based on the relationship between the second amplified expression tendency information output from the expression amplification unit When,
The similarity calculation apparatus characterized by comprising.
前記表現増幅部は、抽出された前記関連表現に関連する関連表現を抽出することによって前記表現傾向情報を増幅するとともに、
前記表現増幅部は、前記第1のテキストデータを元に増幅した前記第1の増幅後表現傾向情報に含まれる表現と、前記第2のテキストデータを元に増幅した前記第2の増幅後表現傾向情報に含まれる表現とに対応するノードと、さらに前記第1のテキストデータに対応するノードと、前記第2のテキストデータに対応するノードとに関して、ノード間の関連の有無を表わす関連性データを生成し、
前記類似性算出部は、前記関連性データに基づいて算出される前記第1のテキストデータと前記第2のテキストデータとの間の関連性の強さを、前記類似度として算出する、
ことを特徴とする請求項1に記載の類似度算出装置。
The expression amplifying unit amplifies the expression tendency information by extracting a related expression related to the extracted related expression,
The expression amplifying unit includes an expression included in the first post-amplification expression tendency information amplified based on the first text data, and the second post-amplification expression amplified based on the second text data. Relevance data representing presence / absence of association between nodes with respect to a node corresponding to an expression included in trend information, a node corresponding to the first text data, and a node corresponding to the second text data Produces
The similarity calculation unit calculates the strength of the relationship between the first text data and the second text data calculated based on the relationship data as the similarity.
The similarity calculation apparatus according to claim 1, wherein:
前記類似性算出部は、前記関連性データに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、前記第1のテキストデータに対応するノードから、前記第2のテキストデータに対応するノードまでのパス上に含まれる全てのノードまでの、前記関連度スコアの総和を、前記類似度として算出する、
ことを特徴とする請求項2に記載の類似度算出装置。
The similarity calculation unit sets data representing the ease of transition from node to node based on the relevance data as a relevance score between the nodes, and from a node corresponding to the first text data. Calculating the sum of the relevance scores up to all nodes included on the path to the node corresponding to the second text data as the similarity.
The similarity calculation device according to claim 2, wherein:
前記類似性算出部は、前記関連性データに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、前記第1のテキストデータに対応するノードから前記第2のテキストデータに対応するノードまでの前記関連度スコアを、前記類似度として算出する、
ことを特徴とする請求項2に記載の類似度算出装置。
The similarity calculation unit sets data representing the ease of transition from node to node based on the relevance data as a relevance score between the nodes, and from a node corresponding to the first text data. Calculating the relevance score up to a node corresponding to the second text data as the similarity;
The similarity calculation device according to claim 2, wherein:
前記類似性算出部は、前記表現抽出部に入力される第1のテキストデータを元に前記表現増幅部から出力される第1の増幅後表現傾向情報と、前記表現抽出部に入力される第2のテキストデータを元に前記表現増幅部から出力される第2の増幅後表現傾向情報との間の類似度を算出するものであり、
前記第1の増幅後表現傾向情報は、前記第1のテキストデータに含まれる表現と、前記第1のテキストデータに含まれる表現に直接関連する関連表現との分布を表わす情報であり、
前記第2の増幅後表現傾向情報は、前記第2のテキストデータに含まれる表現と、前記第2のテキストデータに含まれる表現に直接関連する関連表現との分布を表わす情報である、
ことを特徴とする請求項1に記載の類似度算出装置。
The similarity calculation unit includes first amplified expression tendency information output from the expression amplification unit based on first text data input to the expression extraction unit, and first input to the expression extraction unit. Calculating the degree of similarity between the second amplified expression tendency information output from the expression amplification unit based on the text data of 2;
The first post-amplification expression tendency information is information representing a distribution of expressions included in the first text data and related expressions directly related to expressions included in the first text data;
The second post-amplification expression tendency information is information representing a distribution of an expression included in the second text data and a related expression directly related to the expression included in the second text data.
The similarity calculation apparatus according to claim 1, wherein:
前記表現増幅部は、
抽出された前記関連表現のうち、前記テキストデータとの間の類似性が所定の閾値未満である前記関連表現を除外する関連表現フィルタリング部をさらに備える
ことを特徴とする請求項5に記載の類似度算出装置。
The expression amplification unit includes:
The similarity according to claim 5, further comprising: a related expression filtering unit that excludes the related expressions whose similarity to the text data is less than a predetermined threshold among the extracted related expressions. Degree calculation device.
請求項1から6までのいずれか一項に記載の類似度算出装置を備え、
指定された番組に関する番組概要文テキストデータを前記第1のテキストデータとして前記類似度算出装置に入力するとともに、他の番組に関する番組概要文テキストデータを前記第2のテキストデータとして前記類似度算出装置に入力し、前記類似度算出装置によって算出された、前記指定された番組と前記他の番組との間の類似度を取得し、複数の前記他の番組に関して算出される前記指定された番組との間の類似度に基づいて、複数の前記他の番組の中から前記指定された番組に類似する前記他の番組を検索する、
ことを特徴とする類似番組検索装置。
The similarity calculation device according to any one of claims 1 to 6, comprising:
The program summary sentence text data relating to the designated program is input as the first text data to the similarity calculating device, and the program summary sentence text data relating to another program is inputted as the second text data to the similarity calculating device. The specified program calculated by the similarity calculating device, obtaining the similarity between the specified program and the other program, and calculating the plurality of other programs; Searching for another program similar to the designated program from among the other programs based on the similarity between
Similar program search device characterized by the above.
コンピューターを、
テキストデータから表現を抽出することによって前記表現の種類の出現傾向を表わす表現傾向情報を求める表現抽出部と、
表現と前記表現に関連する関連表現との関係を用いて、前記表現抽出部によって抽出された表現に関連する前記関連表現を抽出することによって前記表現抽出部によって抽出された前記表現傾向情報を増幅し、増幅後表現傾向情報を出力する表現増幅部と、
前記表現抽出部に入力される第1のテキストデータを元に前記表現増幅部から出力される第1の増幅後表現傾向情報と、前記表現抽出部に入力される第2のテキストデータを元に前記表現増幅部から出力される第2の増幅後表現傾向情報との間の関係に基づく、前記第1のテキストデータと前記第2のテキストデータとの間の類似度を算出する類似性算出部と、
を具備する類似度算出装置として機能させるプログラム。
Computer
An expression extraction unit for obtaining expression tendency information representing an appearance tendency of the type of expression by extracting an expression from text data;
Amplifying the expression tendency information extracted by the expression extraction unit by extracting the related expression related to the expression extracted by the expression extraction unit using the relationship between the expression and the related expression related to the expression An expression amplifying unit that outputs the expression tendency information after amplification;
Based on the first post-amplification expression tendency information output from the expression amplifier based on the first text data input to the expression extractor and the second text data input to the expression extractor A similarity calculation unit that calculates a similarity between the first text data and the second text data based on the relationship between the second amplified expression tendency information output from the expression amplification unit When,
A program for functioning as a similarity calculation device.
JP2012113602A 2012-05-17 2012-05-17 Similarity calculation device, similar program search device, and program thereof Active JP5982174B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012113602A JP5982174B2 (en) 2012-05-17 2012-05-17 Similarity calculation device, similar program search device, and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012113602A JP5982174B2 (en) 2012-05-17 2012-05-17 Similarity calculation device, similar program search device, and program thereof

Publications (2)

Publication Number Publication Date
JP2013239132A true JP2013239132A (en) 2013-11-28
JP5982174B2 JP5982174B2 (en) 2016-08-31

Family

ID=49764087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012113602A Active JP5982174B2 (en) 2012-05-17 2012-05-17 Similarity calculation device, similar program search device, and program thereof

Country Status (1)

Country Link
JP (1) JP5982174B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000788A (en) * 2020-08-19 2020-11-27 腾讯云计算(长沙)有限责任公司 Data processing method and device and computer readable storage medium
CN117275655A (en) * 2023-11-15 2023-12-22 中国人民解放军总医院第六医学中心 Medical records statistics and arrangement method and system based on artificial intelligence

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108579A (en) * 2001-09-28 2003-04-11 Toshiba Corp Document retrieving device and document retrieving method
JP2010287020A (en) * 2009-06-11 2010-12-24 Hitachi Ltd Synonym translation system and synonym translation method
JP2011043908A (en) * 2009-08-19 2011-03-03 Nippon Hoso Kyokai <Nhk> Program retrieval device and program retrieval program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108579A (en) * 2001-09-28 2003-04-11 Toshiba Corp Document retrieving device and document retrieving method
JP2010287020A (en) * 2009-06-11 2010-12-24 Hitachi Ltd Synonym translation system and synonym translation method
JP2011043908A (en) * 2009-08-19 2011-03-03 Nippon Hoso Kyokai <Nhk> Program retrieval device and program retrieval program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000788A (en) * 2020-08-19 2020-11-27 腾讯云计算(长沙)有限责任公司 Data processing method and device and computer readable storage medium
CN112000788B (en) * 2020-08-19 2024-02-09 腾讯云计算(长沙)有限责任公司 Data processing method, device and computer readable storage medium
CN117275655A (en) * 2023-11-15 2023-12-22 中国人民解放军总医院第六医学中心 Medical records statistics and arrangement method and system based on artificial intelligence

Also Published As

Publication number Publication date
JP5982174B2 (en) 2016-08-31

Similar Documents

Publication Publication Date Title
Parikh et al. ToTTo: A controlled table-to-text generation dataset
JP6813591B2 (en) Modeling device, text search device, model creation method, text search method, and program
WO2015175931A1 (en) Language modeling for conversational understanding domains using semantic web resources
CN104408115B (en) The heterogeneous resource based on semantic interlink recommends method and apparatus on a kind of TV platform
JP2018032213A (en) Information processor, information processing system, information processing method and program
CN109271518A (en) Method and apparatus for carrying out classification display to micro-blog information
JP2006293767A (en) Sentence categorizing device, sentence categorizing method, and categorization dictionary creating device
JP6165068B2 (en) Similarity search program, apparatus and method for deriving similarity between sentences having a story
CN103514289A (en) Method and device for building interest entity base
JP2009217802A (en) Document processor, document processing program and recording medium
Sağlam et al. Developing Turkish sentiment lexicon for sentiment analysis using online news media
CN115470344A (en) Video barrage and comment theme fusion method based on text clustering
JP5982174B2 (en) Similarity calculation device, similar program search device, and program thereof
JP2010272075A (en) Emotional information extraction device, emotion retrieval device, method thereof, and program
JP6773585B2 (en) Document processing equipment, document processing methods and programs
JP2006106970A (en) Information retrieval device, information retrieval method and computer program
KR102335408B1 (en) Method and apparatus for managing movie tribute language
Karsdorp et al. The love equation: Computational modeling of romantic relationships in french classical drama
Nio et al. Improving the robustness of example-based dialog retrieval using recursive neural network paraphrase identification
JP5977199B2 (en) Local association word extraction device, regional association word extraction method, and regional association word extraction program
JP5856905B2 (en) Theme extraction device and program thereof
JP6634001B2 (en) Text summarization apparatus, method, and program
KR101693783B1 (en) System and method for generating ontology data based on keyword instance
Wills Semantic linking of the Pre-Christian Religions of the North
JP6226314B2 (en) Search index building device, search index building method, and search index building device program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150401

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160801

R150 Certificate of patent or registration of utility model

Ref document number: 5982174

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250