JP6552353B2 - Information providing apparatus, information providing method, and information providing program - Google Patents

Information providing apparatus, information providing method, and information providing program Download PDF

Info

Publication number
JP6552353B2
JP6552353B2 JP2015184649A JP2015184649A JP6552353B2 JP 6552353 B2 JP6552353 B2 JP 6552353B2 JP 2015184649 A JP2015184649 A JP 2015184649A JP 2015184649 A JP2015184649 A JP 2015184649A JP 6552353 B2 JP6552353 B2 JP 6552353B2
Authority
JP
Japan
Prior art keywords
word
information
information providing
providing apparatus
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015184649A
Other languages
Japanese (ja)
Other versions
JP2017059077A (en
Inventor
祐 宮崎
祐 宮崎
香里 谷尾
香里 谷尾
隼人 小林
隼人 小林
正樹 野口
正樹 野口
晃平 菅原
晃平 菅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2015184649A priority Critical patent/JP6552353B2/en
Publication of JP2017059077A publication Critical patent/JP2017059077A/en
Application granted granted Critical
Publication of JP6552353B2 publication Critical patent/JP6552353B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報提供装置、情報提供方法および情報提供プログラムに関する。   The present invention relates to an information providing apparatus, an information providing method, and an information providing program.

従来、入力された情報の解析結果に基づいて、入力された情報と関連する情報を検索もしくは生成し、検索もしくは生成した情報を応答として出力する技術が知られている。このような技術の一例として、入力されたテキストに含まれる単語、文章、文脈を多次元ベクトルに変換して解析し、解析結果に基づいて、入力されたテキストと類似するテキストや、入力されたテキストに続くテキストを類推し、類推結果を出力する自然言語処理の技術が知られている。   Conventionally, there is known a technique for searching or generating information related to input information based on an analysis result of the input information and outputting the searched or generated information as a response. As an example of such a technology, words, sentences, and contexts contained in the input text are converted into multidimensional vectors and analyzed, and based on the analysis result, text similar to the input text or input A technique of natural language processing is known which analogizes text following the text and outputs an analog result.

特開2006−127077号公報JP, 2006-127077, A

“word2vecによる自然言語処理”,西尾泰和,2014年05月発行,ISBN978-4-87311-683-9“Natural Language Processing with word2vec”, Yasukazu Nishio, May 2014, ISBN978-4-87311-683-9 “創造的設計のための仮説的知識生成支援の研究”,日本機械学会,No03-27,第13回設計工学・システム部門講演会講演論文集"Study on Hypothesis-based Knowledge Generation Support for Creative Design", The Japan Society of Mechanical Engineers, No. 03-27, 13th Design Engineering and Systems Division Conference Proceedings

しかしながら、上記の従来技術では、利用者の創作を援助する情報を出力することができない場合がある。例えば、上記の従来技術では、入力されたテキストと類似するテキストや、入力されたテキストに続くテキスト等、利用者が予測しうる情報を出力しているに過ぎず、入力されたテキストと関連するが利用者が予測しえない情報を出力することが困難である。このため、上記の従来技術では、利用者にひらめきを与えるような情報を提供することができない。   However, in the above-mentioned prior art, there are cases where it is not possible to output information for assisting the creation of the user. For example, in the above-described prior art, only information that can be predicted by the user, such as text similar to the input text or text following the input text, is output, and is related to the input text. However, it is difficult for the user to output information that can not be predicted. For this reason, in the above-mentioned prior art, it is impossible to provide information that gives inspiration to the user.

本願は、上記に鑑みてなされたものであって、利用者の創作を援助する情報を出力することができる情報提供装置、情報提供方法および情報提供プログラムを提供することを目的とする。   The present application is made in view of the above, and an object of the present invention is to provide an information providing apparatus, an information providing method, and an information providing program capable of outputting information for assisting a user's creation.

本願にかかる情報提供装置は、入力情報を受付ける受付部と、入力情報から特定構文とその特定構文に埋め込まれた単語群を抽出するパターン特定部と、特定した前記パターンにふくまれる、前記特定した単語群の分散表現を用いて、類似度を算出する類似度算出部と、前記類似度算出部が算出した類似度に基づいて抽出した情報を出力する出力部とを有することを特徴とする。   The information providing apparatus according to the present application includes a receiving unit that receives input information, a pattern specifying unit that extracts a specific syntax and a group of words embedded in the specific syntax from the input information, and the specified pattern included in the specified pattern. The apparatus is characterized by including a similarity calculation unit that calculates a similarity using a distributed expression of word groups, and an output unit that outputs information extracted based on the similarity calculated by the similarity calculation unit.

実施形態の一態様によれば、利用者の創作を援助する情報を出力することができるという効果を奏する。   According to one aspect of the embodiment, it is possible to output information that assists the creation of the user.

図1は、実施形態にかかる情報提供装置の一例を示す図である。FIG. 1 is a diagram illustrating an example of an information providing apparatus according to an embodiment. 図2は、発明発掘手法の1つである等価変換理論を示す図である。FIG. 2 is a diagram showing an equivalent conversion theory which is one of the invention finding methods. 図3は、実施形態にかかる情報提供装置の入力と出力のバリエーションの第1の例を説明する図である。FIG. 3 is a diagram illustrating a first example of input and output variations of the information providing apparatus according to the embodiment. 図4は、実施形態にかかる情報提供装置の入力と出力のバリエーションの第2の例を説明する図である。FIG. 4 is a view for explaining a second example of the variation of the input and the output of the information providing apparatus according to the embodiment. 図5は、実施形態にかかる情報提供装置の入力と出力のバリエーションの第3の例を説明する図である。FIG. 5 is a diagram illustrating a third example of input and output variations of the information providing apparatus according to the embodiment. 図6は、実施形態にかかる情報提供装置の入力と出力のバリエーションの第4の例を説明する図である。FIG. 6 is a diagram illustrating a fourth example of input and output variations of the information providing apparatus according to the embodiment. 図7は、実施形態にかかる情報提供装置が有する機能構成の一例を示す図である。FIG. 7 is a diagram illustrating an example of a functional configuration of the information providing apparatus according to the embodiment. 図8は、実施形態にかかる情報提供装置が抽出する単語の一例を説明するための図である。FIG. 8 is a diagram for explaining an example of a word extracted by the information providing apparatus according to the embodiment. 図9は、実施形態にかかる情報提供装置が抽出する単語組の一例を説明する図である。FIG. 9 is a diagram for explaining an example of a word set extracted by the information providing apparatus according to the embodiment. 図10は、実施形態にかかる情報提供装置が実行する分散表現空間を拡張する処理の一例を説明するための図である。FIG. 10 is a diagram for explaining an example of processing for extending the distributed representation space executed by the information providing apparatus according to the embodiment. 図11は、実施形態にかかる情報提供装置が実行する分散表現空間の限定と拡張とを説明するための図である。FIG. 11 is a diagram for explaining the limitation and expansion of the distributed representation space executed by the information providing apparatus according to the embodiment. 図12は、実施形態にかかる情報提供装置が類似する単語を抽出する処理の一例を説明する図である。FIG. 12 is a diagram for explaining an example of processing for extracting similar words by the information providing apparatus according to the embodiment. 図13は、単語のベクトル同士の関係性の一例を説明するための図である。FIG. 13 is a diagram for explaining an example of the relationship between word vectors. 図14は、情報提供装置が提案する単語が有する概念の一例を説明するための図である。FIG. 14 is a diagram for explaining an example of the concept of a word proposed by the information providing apparatus. 図15は、実施形態にかかる情報提供装置が実行する抽出処理の流れを説明するフローチャートである。FIG. 15 is a flowchart illustrating the flow of the extraction process performed by the information providing apparatus according to the embodiment. 図16は、実施形態にかかる情報提供装置が実行する抽出処理の具体的な処理の流れを説明するフローチャートである。FIG. 16 is a flowchart illustrating the flow of a specific process of the extraction process performed by the information providing apparatus according to the embodiment. 図17は、実施形態にかかる情報提供装置がセレンディピティを起こしやすい単語組を選択する処理の具体的な処理の流れを説明するフローチャートである。FIG. 17 is a flowchart for explaining the flow of a specific process of the process in which the information providing apparatus according to the embodiment selects a word set which is likely to cause serendipity. 図18は、入力分野の情報と異分野の情報とに関係のある情報を出力する処理の一例を説明する図である。FIG. 18 is a diagram illustrating an example of processing for outputting information related to information in an input field and information in a different field. 図19は、抽出処理を実現するコンピュータの一例を示すハードウェア構成図である。FIG. 19 is a hardware configuration diagram showing an example of a computer that implements extraction processing.

以下に、本願にかかる情報提供装置、情報提供方法および情報提供プログラムを実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願にかかる情報提供装置、情報提供方法および情報提供プログラムが限定されるものではない。また、以下の実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。   Hereinafter, an information providing apparatus, an information providing method, and a mode for implementing an information providing program according to the present application (hereinafter, referred to as “embodiment”) will be described in detail with reference to the drawings. Note that the information providing apparatus, the information providing method, and the information providing program according to the present application are not limited by the embodiment. Further, in the following embodiments, the same parts will be denoted by the same reference numerals, and overlapping descriptions will be omitted.

〔1.情報提供装置の一例〕
まず、図1を用いて、情報提供装置10が実行する処理の一例について説明する。図1は、実施形態にかかる情報提供装置の一例を示す図である。例えば、図1に示す例では、情報提供装置10は、複数の利用者がブレインストーミング等の会議を行っている際に、利用者の発言を入力情報として取得し、取得した入力情報に基づいて、通常の思考では浮かばないような発言を生成し、生成した発言を音声に変換してロボット等に出力させることで、利用者の思考を支援する処理の一例について記載した。
[1. Example of information providing device)
First, an example of a process performed by the information providing apparatus 10 will be described with reference to FIG. FIG. 1 is a diagram illustrating an example of an information providing apparatus according to an embodiment. For example, in the example illustrated in FIG. 1, the information providing apparatus 10 acquires a user's speech as input information when a plurality of users are holding a meeting such as brainstorming, and based on the acquired input information. An example of processing to support the user's thinking is described by generating an utterance that does not appear in ordinary thinking, converting the generated utterance into speech and outputting it to a robot or the like.

図1に示した情報提供装置10は、サーバ装置等の情報処理装置により実現される。なお、情報提供装置10は、単一の情報処理装置に実現されてもよく、例えば、クラウドネットワーク上に存在する複数の情報処理装置が協調して実現されてもよい。このような、情報提供装置10は、利用者の発言をテキストデータに変換し、テキストデータを自然言語処理により解析する。そして、情報提供装置10は、解析結果に基づいて、会議や利用者の思考を支援する発言を生成し、生成した発言を出力する。   The information providing device 10 illustrated in FIG. 1 is realized by an information processing device such as a server device. Note that the information providing device 10 may be realized by a single information processing device, and for example, a plurality of information processing devices existing on a cloud network may be realized in cooperation. Such an information providing apparatus 10 converts a user's speech into text data and analyzes the text data by natural language processing. Then, based on the analysis result, the information providing apparatus 10 generates a speech that supports the meeting or the user's thinking, and outputs the generated speech.

ここで、従来技術では、入力されたテキストを構成する複数次元の単語ベクトルで示す分散表現を用いて、入力されたテキストと類似するテキストや、入力されたテキストに続くテキストを類推する。しかしながら、従来技術では、入力されたテキストと分散表現が類似するテキスト、すなわち、利用者が予測しうるテキストを出力するに過ぎない。このため、従来技術では、利用者が思いもしなかった情報や、利用者に新規なひらめきを与えるような情報、すなわち、利用者のセレンディピティ(ひらめき、気づき、驚き)を起こし得る情報を提供することができなかった。また、例えば、単純に入力されたテキストとは分散表現が類似しないテキストを出力した場合には、利用者の思考とは関係がないテキストを出力することとなり、利用者の思考を阻害する場合がある。   Here, in the prior art, a distributed expression indicated by multi-dimensional word vectors constituting input text is used to analogize text similar to the input text and text following the input text. However, in the prior art, the input text and the distributed expression are similar texts, ie, texts that can be predicted by the user. For this reason, the conventional technology provides information that the user has never thought of, information that gives the user a new inspiration, that is, information that can cause the user's serendipity (inspiration, awareness, surprise). I could not Also, for example, if text that does not resemble a simple input text is output, text that is not related to the user's thought will be output, which may hinder the user's thought. is there.

そこで、情報提供装置10は、以下の処理を実行する。まず、情報処理装置10は、利用者の発言等を入力情報として受付ける。そして、情報処理装置10は、入力情報を受付けると、入力情報から特定構文を特定し、特定した特定構文に埋め込まれた単語群を抽出する。また、情報処理装置10は、特定構文に含まれる単語群の分散表現を用いて、他の単語の分散表現との類似度を算出する。そして、情報提供装置10は、算出した類似度に基づいて抽出した情報を出力する。   Therefore, the information providing device 10 executes the following process. First, the information processing apparatus 10 accepts a user's speech or the like as input information. Then, when receiving the input information, the information processing apparatus 10 specifies a specific syntax from the input information, and extracts a word group embedded in the specified specific syntax. In addition, the information processing apparatus 10 calculates the degree of similarity with the distributed expression of another word using the distributed expression of the word group included in the specific syntax. Then, the information providing device 10 outputs the information extracted based on the calculated degree of similarity.

具体的には、情報提供装置10は、入力情報が属する分野を特定する。また、情報提供装置10は、特定した分野に属する情報から所定の関係性を有する複数の情報を特定する。そして、情報提供装置10は、特定した複数の情報により生じる概念と同様の概念を有する情報を、特定した分野とは異なる分野に属する情報から抽出する。   Specifically, the information providing apparatus 10 identifies the field to which the input information belongs. Further, the information providing apparatus 10 identifies a plurality of pieces of information having a predetermined relationship from the information belonging to the identified field. Then, the information providing apparatus 10 extracts information having the same concept as the concept generated by the plurality of identified information from the information belonging to the field different from the identified field.

ここで、情報提供装置10は、所定の関連性を有する複数の情報の分散表現を用いて、複数の情報により生じる属性との類似度が所定の条件を満たす属性を有する情報を、入力情報が属する分野との類似度が所定の閾値以下となる分野に属する情報から抽出する。例えば、情報提供装置10は、入力情報が属する分野の文献から、所定の関係性を有する複数の単語を特定し、特定した複数の単語により生じる属性と同様の属性を有する単語を、特定した分野との類似度が所定の閾値以下となる分野に属する文献から抽出する。そして、情報提供装置10は、抽出した情報を出力する。   Here, the information providing apparatus 10 uses the distributed representation of a plurality of pieces of information having a predetermined degree of association to input information having an attribute in which the degree of similarity with the attribute generated by the plurality of pieces of information satisfies the predetermined condition. It extracts from the information which belongs to the field where the degree of similarity with the field to which it belongs falls below a predetermined threshold. For example, the information providing apparatus 10 identifies a plurality of words having a predetermined relationship from documents in a field to which input information belongs, and identifies a word having an attribute similar to the attribute generated by the identified plurality of words. The document is extracted from documents belonging to the field in which the degree of similarity with. Then, the information providing device 10 outputs the extracted information.

ここで、複数の情報により生じる概念とは、例えば、各情報が持つ属性である。より具体的な例を説明すると、情報として単語を採用する場合、各単語が何語であるか、各単語にどのような意味があるか等といった属性の組を、複数の単語が持つ属性、すなわち単語の組の概念とする。以下の説明では、情報提供装置10は、情報として取り扱われる単語、生体情報、コンテンツ等が有する属性を、その情報が有する「概念」と記載し、複数の単語、複数の生体情報、複数のコンテンツ等が有する属性を、その複数の情報が有する「概念」と記載する。   Here, the concept generated by a plurality of pieces of information is, for example, an attribute of each piece of information. To explain a more specific example, when adopting words as information, an attribute having a plurality of words has a set of attributes such as what word each word is, what meaning each word has, etc. That is, the concept of a set of words. In the following description, the information providing apparatus 10 describes an attribute included in a word, biological information, content, and the like handled as information as a “concept” included in the information, and a plurality of words, a plurality of biometric information, and a plurality of contents. The attribute possessed by etc. is described as the "concept" possessed by the plurality of pieces of information.

すなわち、情報提供装置10は、入力情報が属するカテゴリにおいて所定の関係性を有する情報によって形成される概念を特定し、入力情報とは異なるカテゴリに属する情報から、共通する概念を形成しうる情報を抽出する。かかる処理の結果、情報提供装置10は、入力情報と暗黙的なつながりを保持しつつ、明示的には不連続な関係性を有する情報、すなわち、カテゴリが異なる結果、一見すると関係が無さそうに見える情報を提供することができる。   That is, the information providing apparatus 10 specifies the concept formed by the information having the predetermined relationship in the category to which the input information belongs, and from the information belonging to the category different from the input information, the information which can form the common concept Extract. As a result of such processing, the information providing apparatus 10 holds information that has an implicit relationship with the input information, but explicitly has information that has a discontinuous relationship, that is, as a result of different categories, the relationship is apparently irrelevant. Visible information can be provided.

ここで入力情報と暗黙的なつながりを保持しつつ、明示的には不連続な関係性を有する情報、すなわち、カテゴリが異なる結果、一見すると関係が無さそうに見える情報は、利用者が思いもしなかった情報や、利用者に新規なひらめきを与えるような情報となりえる。   In this case, while retaining implicit connections with input information, information having explicit discontinuous relationships, that is, information that appears to be unrelated at first glance as a result of different categories is considered by the user. It can be information that was not present or that gives new inspiration to users.

例えば、情報提供装置10は、入力情報が属する分野の情報から、その分野における発明や発想のポイントを示す複数の情報を特定し、特定した情報が示す概念、すなわち、発明や発想のポイントを示す概念を特定する。そして、情報提供装置10は、特定した概念と類似する情報を他分野の情報から抽出する。このような処理によって抽出された情報は、入力情報が属する分野とは異なる分野において、発明や発想のポイントを示す概念を満たす情報、すなわち、他分野における発明や発想のポイントを利用者に示唆し、利用者のセレンディピティを起こし得る情報になりえる。この結果、情報提供装置10は、利用者の創作を援助することができる。   For example, the information providing apparatus 10 identifies, from information of the field to which the input information belongs, a plurality of pieces of information indicating points of the invention or idea in the field, and indicates a concept indicated by the identified information, that is, points of the invention or idea Identify the concept. Then, the information providing apparatus 10 extracts information similar to the identified concept from the information in the other fields. The information extracted by such processing indicates to the user information satisfying the concept indicating the point of the invention or idea in a field different from the field to which the input information belongs, that is, the point of the invention or idea in another field , It can be information that can cause serendipity of the user. As a result, the information providing apparatus 10 can assist the creation of the user.

例えば、図2は、発明発掘手法の1つである等価変換理論を示す図である。例えば、図2中(A)に示すように、元となる具体的事象(例えば、元となる発明)であるAoは、図2中(B)に示すように、開発目的に合った観点viにより成り立っている。また、Aoには、図2中(C)に示すように、Aoが属する技術的な属性など、Aoが有する特殊な条件Σaが含まれている。このため、図2中(D)に示すように、AoからΣaを除いた概念cεは、Aoの核心をなす概念となりうる。そして、図2中(E)に示すように、概念cεに、Σaとは異なる特殊な条件Σbを考慮した場合には、図2中(F)に示すように、概念上、新たな発明Bτを導出できると考えられる。 For example, FIG. 2 is a figure which shows the equivalent conversion theory which is one of the invention excavation methods. For example, as shown in (A) in FIG. 2, Ao which is the original specific event (for example, the original invention) is a viewpoint vi that meets the development purpose as shown in (B) in FIG. It consists of. Further, as shown in FIG. 2C, Ao includes special conditions 特殊 a possessed by Ao, such as technical attributes to which Ao belongs. For this reason, as shown in FIG. 2D, the concept cε obtained by removing Σa from Ao can be a concept that is the core of Ao. Then, when a special condition) b different from aa is considered in the concept cε as shown in (E) in FIG. 2, a new invention B is conceptually obtained as shown in (F) in FIG. It is considered that τ can be derived.

そこで、情報提供装置10は、後述する抽出処理により、入力情報が属する分野におけるアイデアの概念、すなわちAoからAoの核心をなす概念cεを抽出し、抽出した概念cεを他分野の条件Σbにあてはめることで、新たなアイデアBτを導出できるような情報を利用者に提供する。 Therefore, the information providing apparatus 10 extracts the concept of the idea in the field to which the input information belongs, that is, the concept cε that is the core of Ao from Ao, by the extraction process described later, and applies the extracted concept cε to the condition に よ り b of the other fields Thus, the information is provided to the user such that a new idea B τ can be derived.

以下、図1の例を用いて、情報提供装置10が実行する具体的な抽出処理の一例を説明する。まず、情報提供装置10は、会議における利用者の発言Aや発言Bを入力として受付ける(ステップS1)。例えば、情報提供装置10は、利用者が発声した発言Aをテキストデータに変換し、変換後のテキストデータを入力情報として取得する。   Hereinafter, an example of a specific extraction process performed by the information providing apparatus 10 will be described using the example of FIG. 1. First, the information providing apparatus 10 receives the user's utterance A and utterance B in the conference as an input (step S1). For example, the information providing apparatus 10 converts the speech A uttered by the user into text data, and acquires the converted text data as input information.

かかる場合、情報提供装置10は、入力情報が属する分野とは異なる分野に属する単語であって、入力情報が属する分野において所定の関係性を有する複数の単語が形成する概念と同様の概念を示す単語を抽出する抽出処理を実行する(ステップS2)。以下、情報提供装置10が実行する生成処理の流れをステップS3〜ステップS8に分けて説明する。   In such a case, the information providing apparatus 10 is a word belonging to a field different from the field to which the input information belongs, and shows a concept similar to the concept formed by a plurality of words having predetermined relationships in the field to which the input information belongs. An extraction process for extracting words is executed (step S2). Hereinafter, the flow of the generation process performed by the information providing apparatus 10 will be described by dividing it into steps S3 to S8.

まず、情報提供装置10は、入力情報が属する分野を特定する(ステップS3)。例えば、情報提供装置10は、利用者の発言のテキストデータを解析し、テキストデータに含まれる単語がどのような分野において使用されている単語であるかを特定する。例えば、情報提供装置10は、例えば、「眼鏡型」、「腕時計型」、「表示」、「スマートデバイス」等といった単語が含まれる場合は、入力情報が属する分野を「ウェアラブルデバイス」とする。なお、情報提供装置10は、例えば、入力情報に含まれるであろう単語と、その単語が含まれる入力情報が属する分野とを予め対応付けて記憶し、入力情報に含まれる単語と対応付けられた分野を、入力情報が属する分野として特定してもよく、例えば、ウェブ上の検索サービス等を用いて、入力情報に含まれる単語と関連する分野を検索し、検索結果として得られる分野を入力情報が属する分野としてもよい。   First, the information providing apparatus 10 identifies the field to which the input information belongs (step S3). For example, the information providing apparatus 10 analyzes text data of a user's utterance and identifies in which field the word included in the text data is used. For example, when the information providing apparatus 10 includes words such as “glasses type”, “watch type”, “display”, “smart device” and the like, the field to which the input information belongs is “wearable device”. The information providing apparatus 10 stores, for example, a word that will be included in the input information and a field to which the input information including the word belongs in advance in association with each other, and is associated with the word included in the input information The field may be specified as the field to which the input information belongs. For example, a search service on the web is used to search the field associated with the word included in the input information, and the field obtained as the search result is input It may be a field to which information belongs.

続いて、情報提供装置10は、特定した分野における文献データから、所定の関係性を有する複数の単語を含む単語組を抽出する(ステップS4)。例えば、情報提供装置10は、公開特許公報や特許公報等、各種の技術について記載された文献データベースから、特定した分野の文献データを取得する。続いて、情報提供装置10は、取得した文献データを形態素解析を行い、文献データ内から所定の順序で出現する複数の単語組を抽出する。より具体的には、情報提供装置10は、発想や発明の特徴を説明する際に用いられる構造を有する文章を特定し、特定した文章中に含まれる単語組を抽出する。   Subsequently, the information providing device 10 extracts a word set including a plurality of words having a predetermined relationship from the document data in the identified field (step S4). For example, the information providing apparatus 10 acquires document data of a specified field from a document database describing various technologies, such as disclosed patent publications and patent publications. Subsequently, the information providing apparatus 10 performs morphological analysis on the acquired document data, and extracts a plurality of word pairs that appear in a predetermined order from the document data. More specifically, the information providing apparatus 10 specifies a sentence having a structure used when explaining ideas and features of the invention, and extracts a word set included in the specified sentence.

具体例を説明すると、例えば、発想や発明の特徴、すなわちアイデアの特徴を説明しているであろう文章は、処理の対象を示す名詞、名詞が示す対象の状態を示す状態表現語若しくは副詞句、および処理の内容を示す動詞とを含むと予測される。また、このような文章は、助詞などの単語間に存在しうる品詞を中括弧で囲むと、「(名詞){を}(状態表現語、副詞句){で、によって、にして}(動詞){する、できる}」といった構造を有すると予測される。以下、このような構文の構造をcε辞典法と記載する場合がある。   To explain a specific example, for example, a sentence that will explain an idea or a feature of an invention, that is, a feature of an idea, is a noun indicating the object of processing, a state expression word indicating the state of the object indicated by the noun, or an adverbial phrase And a verb indicating the content of the process. Also, in such a sentence, a part of speech that can exist between words such as particles is enclosed in curly brackets, and "(noun) {"} (state expression word, adverb phrase) {, by}} (verb It is predicted to have a structure such as {}, can}. Hereinafter, the structure of such a syntax may be described as the cε dictionary method.

そこで、情報提供装置10は、特定した分野の文献データから上述した構造を有する文章を抽出し、抽出した文章に含まれる3つの単語、すなわち、名詞、状態表現語若しくは副詞句、および動詞を、発想を示す単語組として抽出する。このように、情報提供装置10は、入力情報から特定構文を抽出し、抽出した特定構文に埋め込まれた単語群を抽出する。ここで、特定構文とは、所定のパターン、すなわち、cε辞典法の構造を有する構文である。このようにして抽出された単語組は、所定の格助詞を追加するのみで、発明や発想などのアイデアを示す文章を再現することができるため、単語組の抽出元となる文章が示す概念、すなわち、発明や発想等のアイデアの概念を示すことができる。   Therefore, the information providing apparatus 10 extracts the sentence having the structure described above from the literature data of the specified field, and three words included in the extracted sentence, that is, a noun, a state expression word or an adverb phrase, and a verb, Extracted as a word set indicating an idea. Thus, the information providing apparatus 10 extracts a specific syntax from input information, and extracts a word group embedded in the extracted specific syntax. Here, the specific syntax is a syntax having a predetermined pattern, that is, the structure of the cε dictionary method. Since the word set extracted in this way can reproduce a sentence indicating an idea such as an invention or an idea only by adding a predetermined case particle, a concept indicated by a sentence serving as an extraction source of the word set, That is, the concept of an idea such as an invention or an idea can be shown.

ここで、ある分野に属する文献データには、その分野において当たり前に用いられている概念を示す単語組が多く含まれていると予測される。例えば、プログラム分野の文献データには、「プログラム」を「作成する」ことにより任意のアイデアを「実現」するといった概念の文章が多く含まれると予測される。このため、プログラム分野の文献データから抽出された単語組のうち、「プログラム、作成、実現」等といった単語を含む単語組には、利用者のセレンディピティを起こし得る概念が含まれているとは言えない。   Here, it is predicted that document data belonging to a certain field contains many word pairs indicating concepts that are commonly used in the field. For example, it is predicted that the literature data in the program field will contain many sentences with the concept of “realizing” an arbitrary idea by “creating” a “program”. Therefore, among word pairs extracted from document data in the program field, word pairs including words such as "program, create, realize", etc. may contain a concept that can cause serendipity of the user. Absent.

そこで、情報提供装置10は、抽出した単語組からセレンディピティを起こし得る単語組を選択する(ステップS5)。すなわち、情報提供装置10は、単語組の中から、利用者がより発想しづらい概念であって、提示された際に理解しやすい概念を示す単語組を選択する。具体的には、情報提供装置10は、他に抽出された単語組のうち、同様の概念を示す単語組の数や単語組に含まれる単語間の関係性に基づいて、セレンディピティを起こし得る単語組を選択する。   Therefore, the information providing apparatus 10 selects a word group that can cause serendipity from the extracted word group (step S5). That is, the information providing apparatus 10 selects, from among the word pairs, a word pair that is a concept that is more difficult for the user to conceive, and that indicates a concept that is easy to understand when presented. Specifically, the information providing apparatus 10 can generate serendipity based on the number of word pairs indicating the same concept among the other extracted word sets and the relationship between words included in the word set. Choose a set.

例えば、情報提供装置10は、利用者がより発想しづらい概念を示す単語組を選択するため、同様の概念を示す単語組の数が所定の数以下である単語組を選択する。また、情報提供装置10は、提示された際に理解しやすい概念を示す単語組を選択するため、選択した単語組の中から、単語組に含まれる単語同士が関連語である単語組や、単語組に含まれる単語から関連語を辿った場合に、同じ単語組に含まれる他の単語にたどり着くまで辿った関連語の数が所定の閾値以下となる単語組を選択する。   For example, the information providing apparatus 10 selects a word set whose number of word sets showing the same concept is equal to or less than a predetermined number, in order to select a word set showing a concept which is more difficult for the user to think. Further, the information providing apparatus 10 selects a word set indicating a concept that is easy to understand when presented, so that, among the selected word sets, a word set in which words included in the word set are related words, When a related word is traced from a word contained in a word set, a word set is selected in which the number of related words traced until reaching another word contained in the same word set is equal to or less than a predetermined threshold.

ここで、セレンディピティを起こし得る単語組であっても、複数の文献において横断的に使用されている単語組は、利用者が予測しやすい単語組であるため、セレンディピティを起こす確率が低い。そこで、情報提供装置10は、選択した単語組のうち、横断的に用いられている単語組を除去する(ステップS6)。   Here, even if it is a word set that can cause serendipity, a word set that is used across a plurality of documents is a word set that is easy for a user to predict, and therefore, the probability of causing serendipity is low. Therefore, the information providing apparatus 10 removes the word group used across the selected word group (step S6).

例えば、情報提供装置10は、選択した単語組が各文献に含まれる頻度である文章頻度(DF:Document Frequency)を算出する。より具体的な例を説明すると、情報提供装置10は、単語組ごとに、単語組が出現する文献の数を全文献の数で除算した値を算出する。そして、情報提供装置10は、算出した値が所定の閾値以下となる単語組を選択する。なお、文章頻度を算出する際に用いる文献は、ステップS3にて特定した分野の文献に限定してもよく、限定しなくともよい。   For example, the information providing apparatus 10 calculates a sentence frequency (DF: Document Frequency) which is a frequency at which the selected word set is included in each document. To explain a more specific example, the information providing apparatus 10 calculates a value obtained by dividing the number of documents in which the word group appears for each word group by the number of all documents. Then, the information providing apparatus 10 selects a word set whose calculated value is equal to or less than a predetermined threshold. The documents used when calculating the sentence frequency may be limited to the documents of the field specified in step S3, and may not be limited.

ここで、文章頻度が所定の閾値よりも低い値にした場合には、選択された単語組の数が少なくなる。そこで、情報提供装置10は、名詞が示す物体に対して行われる各種の操作を示す動詞(以下、操作的動詞と記載する。)を用いて、選択された単語組を拡張する(ステップS7)。すなわち、情報提供装置10は、所定の関連性を有する複数の情報を含む組に対し、所定の操作を示す複数の情報を組み合わせた新たな組を生成することで、所定の関連性を有する複数の情報を含む組が有する概念を拡張する。   Here, when the sentence frequency is set to a value lower than the predetermined threshold, the number of selected word sets is reduced. Therefore, the information providing apparatus 10 extends the selected word pair using a verb (hereinafter referred to as an operational verb) indicating various operations performed on the object indicated by the noun (step S7). . That is, the information providing apparatus 10 generates a new set in which a plurality of pieces of information indicating a predetermined operation is combined with respect to a set including a plurality of pieces of information having a predetermined relevance, thereby providing a plurality of pieces of predetermined relevance Extends the concept of a set containing information on

例えば、情報提供装置10は、コバーク&バクナールの操作的動詞を予め記憶する。ここで、コバーク&バクナールの操作的動詞とは、例えば、「増やす」、「分割する」、「除去する」、「和らげる」、「逆にする」、「切り離す」、「入れ換える」、「一体化する」、「ねじ曲げる」、「回転させる」、「平らに伸ばす」、「絞る」、「補足する」、「水に沈める」、「凍結させる」、「柔らかくする」、「ふくらませる」、「回り道をする」、「付け加える」、「控除する」、「軽くする」、「繰り返す」、「厚くする」、「一杯に伸ばす」、「押し出す」、「はねのける」、「防衛する」、「引き離す」、「統合する」、「象徴する」、「抽象する」、「切断する」といった動詞である。   For example, the information providing device 10 stores, in advance, Kobark & Bakunar's operation verbs. Here, Koverk & Bakunar operational verbs are, for example, “increase”, “divide”, “remove”, “relieve”, “reverse”, “disconnect”, “replace”, “integrate” , “Twist”, “rotate”, “smooth out”, “squeeze”, “supplement”, “submerge”, “freeze”, “soften”, “inflate”, “detour” "Do", "add", "subtract", "lighten", "repeat", "thicken", "stretch", "push out", "splash", "defend", "pull away", These verbs are "Integrate", "Symbolize", "Abstract", and "Disconnect".

続いて、情報提供装置10は、選択された単語組に含まれる動詞を、上述した操作的動詞のそれぞれに置き換えた単語組を新たに生成する。例えば、情報提供装置10は、「眼鏡、着用、視聴」といった単語組から、「眼鏡、着用、増やす」、「眼鏡、着用、分割する」等といった単語組を新たに生成する。この結果、情報提供装置10は、利用者に対してセレンディピティを起こす可能性が高い概念のバリエーションを生成することができる。   Subsequently, the information providing apparatus 10 newly generates a word set in which the verb included in the selected word set is replaced with each of the above-described operational verbs. For example, the information providing device 10 newly generates a word set such as “glasses, wear, increase”, “glasses, wear, divide” and the like from the word set such as “glasses, wear, viewing”. As a result, the information providing apparatus 10 can generate a variation of a concept that is highly likely to cause serendipity to the user.

続いて、情報提供装置10は、単語組のそれぞれについて、様々な分野の単語をベクトルで示した空間上、すなわち、分散表現された単語を含む分散表現空間上に単語組を示すベクトルをマッピングする。そして、情報提供装置10は、単語組が属する分野とは異なる分野に属する単語であって、単語組が示す概念と同様の概念を示す単語を分散表現空間上から抽出する(ステップS8)。   Subsequently, the information providing apparatus 10 maps, for each of the word sets, a vector indicating the word set on a space in which the words in various fields are indicated by a vector, that is, on the distributed representation space including the distributedly represented words. . Then, the information providing apparatus 10 extracts, from the distributed representation space, words that are words belonging to a field different from the field to which the word set belongs and that show the same concept as the concept indicated by the word set (step S8).

例えば、情報提供装置10は、W2V(word2vec)を用いて、様々な分野に属する単語の分散表現を含む分散表現空間を予め記憶する。かかる分散表現空間においては、ステップS3にて特定した分野に属する文献に含まれる単語の分散表現も含まれる。続いて、情報提供装置10は、W2Vを用いて、単語組に含まれる各単語を分散表現に変換し、各単語の分散表現の和を算出する。すなわち、情報提供装置10は、単語組に含まれる各単語を示すベクトルの和を算出する。   For example, the information providing apparatus 10 uses W2V (word 2vec) to store in advance a distributed representation space including distributed representations of words belonging to various fields. In such a distributed expression space, distributed expressions of words included in documents belonging to the field specified in step S3 are also included. Subsequently, using W2V, the information providing device 10 converts each word included in the word set into a distributed expression, and calculates the sum of the distributed expression of each word. That is, the information providing device 10 calculates the sum of vectors indicating each word included in the word set.

ここで、分散表現空間上において、単語組に含まれる各単語を示すベクトルの和(以下、単語組のベクトルと記載する。)が示す向きは、単語組が示す概念を示唆していると考えられる。このため、単語組のベクトルと向きが類似するベクトルが示す単語は、単語組が示す概念と類似する概念を有すると考えられる。しかしながら、単語組が示す概念と類似する概念を有する単語であっても、単語組が属する分野と同じ分野の単語は、利用者が予測しうる単語であり、セレンディピティを起こす可能性が低い。   Here, in the distributed representation space, it is considered that the direction indicated by the sum of vectors indicating each word included in the word set (hereinafter referred to as a vector of the word set) suggests the concept indicated by the word set. Be For this reason, it is considered that the word indicated by the vector whose direction is similar to that of the word set vector has a concept similar to the concept indicated by the word set. However, even if the word has a concept similar to the concept indicated by the word set, the word in the same field as the field to which the word set belongs is a word that can be predicted by the user and is less likely to cause serendipity.

そこで、情報提供装置10は、単語組が示す概念と類似する概念を有する単語であって、単語組が属する分野とは異なる分野の文献に含まれる単語を抽出する。より具体的には、情報提供装置10は、単語組のベクトルと向きが類似するベクトルであって、分散表現空間上において単語組のベクトルとは距離が離れたベクトルが示す単語、すなわち、単語組が示す概念と類似する概念を示す単語であって、単語組とは異なる分野に属する単語を抽出する。   Therefore, the information providing apparatus 10 extracts words that have a concept similar to the concept indicated by the word set and are included in documents in a field different from the field to which the word set belongs. More specifically, the information providing apparatus 10 is a vector whose direction is similar to the vector of the word set, and which is indicated by the vector at a distance from the vector of the word set in the distributed representation space, that is, the word set It is a word showing a concept similar to the concept shown by, and a word belonging to a different field from the word set is extracted.

例えば、2つのベクトルの向きがそろうにつれて、かかる2つのベクトルのコサイン距離の値は大きくなる。また、ある合成ベクトルと他のベクトルとのコサイン距離が離れるにつれて、合成ベクトルを構成する各単語ベクトルと、他のベクトルとのコサイン距離の値は小さくなる。そこで、情報提供装置10は、単語組のベクトルと、分散表現空間上の各ベクトルとのコサイン距離をそれぞれ算出する。また、情報提供装置10は、単語組に含まれる各単語のベクトルと、分散表現空間上の各ベクトルとのコサイン距離をそれぞれ算出する。   For example, as the directions of two vectors are aligned, the value of the cosine distance between the two vectors increases. Also, as the cosine distance between a certain composite vector and another vector increases, the value of the cosine distance between each word vector constituting the composite vector and the other vector decreases. Therefore, the information providing apparatus 10 calculates the cosine distance between the word set vector and each vector in the distributed expression space. Also, the information providing device 10 calculates the cosine distance between the vector of each word included in the word set and each vector in the distributed representation space.

そして、情報提供装置10は、単語組のベクトルとのコサイン距離の値が所定の閾値よりも大きく、かつ、単語組に含まれる各単語のベクトルとのコサイン距離の和が所定の閾値よりも小さいベクトルを抽出し、抽出したベクトルが示す単語を特定する。すなわち、情報提供装置10は、単語組が示す概念と類似する概念を有する単語であって、単語組が属する分野とは異なる分野の単語を抽出する。換言すると、情報提供装置10は、等価変換理論に基づいて、特定構文から抽出した単語群と同様のアナロジーを有し、抽出した単語群と異なる分野に属する単語を抽出する。   Then, in the information providing apparatus 10, the value of the cosine distance with the vector of the word set is larger than the predetermined threshold, and the sum of the cosine distances with the vector of each word included in the word set is smaller than the predetermined threshold. The vector is extracted, and the word indicated by the extracted vector is identified. That is, the information providing apparatus 10 extracts words having a concept similar to the concept indicated by the word set, and that is a word in a different field from the field to which the word set belongs. In other words, based on the equivalence conversion theory, the information providing device 10 extracts words having an analogy similar to the word group extracted from the specific syntax and belonging to a field different from the extracted word group.

そして、情報提供装置10は、抽出した単語を提案として出力する(ステップS9)。例えば、情報提供装置10は、単語組「グラフ、一括、付け加える」について、ステップS8に示す処理により、単語「回転」を抽出していた場合、「回転させてはどう?」等というように、抽出した単語を含み、かつ、抽出した単語が示す概念を提案するような文章を生成し、生成した文章を発言Cとしてロボット等に読み出させることで、利用者に提案を行う。   Then, the information providing device 10 outputs the extracted word as a proposal (step S9). For example, when the word “rotation” is extracted by the process shown in step S8 for the word set “graph, collective, add”, the information providing apparatus 10 reads “Rotate?” A sentence is generated that includes the extracted word and that suggests the concept indicated by the extracted word, and the user makes a proposal by causing the robot or the like to read out the generated sentence as the utterance C.

このような提案が行われた場合、利用者は、提案された単語の概念に基づいて、あらたなひらめきを生じさせる可能性が高い。このため、情報提供装置10は、利用者のセレンディピティを起こさせることができる。   When such a proposal is made, the user is highly likely to generate new inspiration based on the concept of the proposed word. For this reason, the information providing apparatus 10 can cause the serendipity of the user.

〔2.情報提供装置が提供する概念のバリエーション〕
ここで、図1に示す例では、利用者の発言に含まれる単語から、利用者にセレンディピティを生じさせるような概念を示す単語を提案する処理について記載した。例えば、図3は、実施形態にかかる情報提供装置の入力と出力のバリエーションの第1の例を説明する図である。例えば、図3中(A)に示すように、情報提供装置10は、文献として、公開公報等の特許明細書に含まれる単語をW2Vにより分散表現空間にマッピングすることで、古い技術や異分野技術の共通アナロジーを含む分散表現空間を生成する。
[2. Variations on concepts provided by information providing devices)
Here, in the example illustrated in FIG. 1, the process of proposing a word indicating a concept that causes the user to generate serendipity from the words included in the user's utterance has been described. For example, FIG. 3 is a diagram for explaining a first example of variations of input and output of the information providing apparatus according to the embodiment. For example, as shown in (A) in FIG. 3, the information providing apparatus 10 uses the word W2V to map words included in patent specifications such as published gazettes in a distributed representation space as a document, thereby enabling old technology and different fields. Create a distributed representation space that contains a common analogy of technology.

続いて、情報提供装置10は、図3中(B)に示すように、入力情報から、サービスや技術分野を特定する。そして、情報提供装置10は、図3中(C)に示すように上述した抽出処理を実行することで、特定した分野とは異なる分野のアナロジーのうち、特定した分野におけるアナロジーが有する概念と近い概念を有するアナロジーを抽出する。この結果、情報提供装置10は、図3中(D)に示すように、新たなアイデアのヒントを出力できる。   Subsequently, as shown in FIG. 3B, the information providing apparatus 10 specifies a service and a technical field from the input information. And the information provision apparatus 10 is close to the concept which the analogy in the specified field | area has among the analogies of the field | area which is different from the specified field | area by performing the extraction process mentioned above as shown to (C) in FIG. Extract analogies with concepts. As a result, the information providing apparatus 10 can output a hint of a new idea as shown in (D) of FIG.

このように出力されたヒントは、入力情報が属する分野におけるアイデアが有する概念と類似する概念であって、異なる分野における概念を利用者に想起させることができると予測される。このため、情報提供装置10は、図3中(E)に示すように、古い技術の発想を新しい環境に展開したアイデアや、図3中(F)に示すように、異分野の技術を活用した新たな技術の創出を助けることができる。   The hint output in this way is a concept similar to the concept possessed by the idea in the field to which the input information belongs, and it is predicted that the user can recall the concept in a different field. For this reason, the information providing apparatus 10 utilizes an idea obtained by developing the idea of the old technology in a new environment as shown in (E) of FIG. 3 or a technology in a different field as shown in (F) of FIG. Help create new technologies.

しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、単語に代えて、ビジネスモデルやビジネスの分野を入力とし、様々な業種におけるビジネスモデルの内容や契約書の内容を分散表現に置き換えた分散表現空間を用いることで、新たなビジネスモデルを創出するためのセレンディピティを利用者に起こさせるようなヒントとなる情報を出力してもよい。   However, the embodiment is not limited to this. For example, the information providing apparatus 10 uses a distributed expression space in which the contents of the business model and the contents of the contract in various types of business are replaced with the distributed expression, using the business model and the field of business as input instead of words. It may also output information that gives the user a hint of serendipity to create a new business model.

例えば、図4は、実施形態にかかる情報提供装置の入力と出力のバリエーションの第2の例を説明する図である。例えば、図4中(A)に示すように、情報提供装置10は、文献として、過去のビジネスが有する特徴をW2Vにより分散表現空間にマッピングすることで、古いビジネスや異分野技術の共通アナロジーを含む分散表現空間を生成する。   For example, FIG. 4 is a diagram illustrating a second example of input and output variations of the information providing apparatus according to the embodiment. For example, as shown in FIG. 4 (A), the information providing apparatus 10 maps, as a document, features of past business to a distributed representation space by W2V, so that a common analogy of old business and different field technologies can be obtained. Create a distributed representation space that contains

続いて、情報提供装置10は、図4中(B)に示すように、入力情報から、サービスやビジネスが属する業種を特定する。そして、情報提供装置10は、特定した分野のサービスやビジネスが有する特徴を抽出し、抽出した複数の特徴を分散表現に変換する。また、情報提供装置10は、分散表現に変換した特徴の和と類似する特徴を有するビジネスの特徴を他分野のビジネスから抽出することで、図4中(C)に示すように、特定した業種とは異なる業種のアナロジーのうち、特定した業種におけるアナロジーが有する概念と近い概念を有するアナロジーを抽出する。この結果、情報提供装置10は、図4中(D)に示すように、新たなビジネスのヒントを出力できる。   Subsequently, as shown in FIG. 4B, the information providing apparatus 10 specifies the type of business to which the service or business belongs from the input information. Then, the information providing apparatus 10 extracts the features of the service or business of the identified field, and converts the extracted plurality of features into a distributed representation. In addition, the information providing apparatus 10 extracts the business feature having a feature similar to the sum of the features converted to the distributed representation from the business in the other field, as shown in (C) in FIG. And an analogy having a concept similar to the concept possessed by the analogy in the specified type of business, among the analogies of different types of business. As a result, the information providing apparatus 10 can output a new business hint as shown in (D) of FIG.

このように出力されたヒントは、入力情報が属する業種におけるビジネスの概念と類似する概念であって、異なる業種における概念を利用者に想起させることができると予測される。このため、情報提供装置10は、図4中(E)に示すように、古いビジネスの発想を新しい環境に展開したビジネスや、図4中(F)に示すように、異業種のビジネスモデルを活用した新たなビジネスモデルの創出を助けることができる。   The hint output in this way is a concept similar to the business concept in the industry to which the input information belongs, and it is predicted that the user can recall concepts in different industry. Therefore, the information providing apparatus 10, as shown in (E) in FIG. 4, is a business in which the idea of the old business is developed in a new environment, and as shown in (F) in FIG. Help create new business models that you use.

また、例えば、情報提供装置10は、単語に代えて、音楽、画像、広告等の任意のコンテンツを入力とし、コンテンツの分散表現空間を用いることで、新たなコンテンツを創出するためのセレンディピティを利用者に起こさせるようなコンテンツを出力してもよい。   Further, for example, the information providing apparatus 10 uses serendipity for creating new content by using arbitrary content such as music, images, advertisements, and the like instead of words as input and using a distributed expression space of the content. You may output content that causes people to wake you up.

例えば、図5は、実施形態にかかる情報提供装置の入力と出力のバリエーションの第3の例を説明する図である。例えば、図5中(A)に示すように、情報提供装置10は、文献に代えて、過去のコンテンツが有する特徴を分散表現空間にマッピングすることで、古いコンテンツや異分野のコンテンツの共通アナロジーを含む分散表現空間を生成する。   For example, FIG. 5 is a diagram illustrating a third example of input and output variations of the information providing apparatus according to the embodiment. For example, as shown in (A) in FIG. 5, the information providing apparatus 10 maps the features of the past content to the distributed representation space instead of the literature, thereby making the common analogy of old content and content in different fields. Create a distributed representation space that contains

続いて、情報提供装置10は、図5中(B)に示すように、音声や画像等のコンテンツを入力情報として受付けると、コンテンツが属する分野を特定する。また、情報提供装置10は、特定した分野のコンテンツが有する複数の特徴を抽出し、抽出した複数の特徴を分散表現に変換する。また、情報提供装置10は、分散表現に変換した特徴の和と類似するコンテンツを他分野のコンテンツから抽出することで、図5中(C)に示すように、特定した分野とは異なる分野のコンテンツが有するアナロジーのうち、特定した分野におけるコンテンツのアナロジーが有する概念と近い概念を有するアナロジーを抽出する。この結果、情報提供装置10は、図5中(D)に示すように、新たなコンテンツのヒントを出力できる。   Subsequently, as shown in FIG. 5B, when the information providing apparatus 10 receives content such as sound or image as input information, the information providing apparatus 10 identifies the field to which the content belongs. Further, the information providing device 10 extracts a plurality of features included in the content of the specified field, and converts the plurality of extracted features into a distributed representation. In addition, as shown in (C) in FIG. 5, the information providing apparatus 10 extracts content similar to the sum of the features converted to the distributed representation from content in other fields, so that the information providing apparatus 10 is in a different field from the identified field. Among the analogies possessed by the content, an analogy having a concept close to the concept possessed by the content analogy in the specified field is extracted. As a result, the information providing apparatus 10 can output a hint of new content as shown in (D) in FIG.

このように出力されたヒントは、入力情報が属する分野のコンテンツが有する概念と類似する概念であって、異なる分野のコンテンツの概念を利用者に想起させることができると予測される。このため、情報提供装置10は、図5中(E)に示すように、古いコンテンツの発想を新しい環境に展開したコンテンツや、図5中(F)に示すように、異分野のコンテンツを活用した新たなコンテンツの創出を助けることができる。また、情報提供装置10は、図5中(G)に示すように、例えば、出力が音であった場合は、例えば、作曲の元となるフレーズの作成を助けることができる。   The hint output in this way is a concept similar to the concept possessed by the content of the field to which the input information belongs, and it is predicted that the user can be reminded of the concept of content of a different field. For this reason, the information providing apparatus 10 utilizes the content in which the idea of old content is developed in a new environment as shown in (E) in FIG. 5 and the content in different fields as shown in (F) in FIG. Help create new content. In addition, as shown in (G) in FIG. 5, for example, when the output is a sound, the information providing device 10 can help, for example, creation of a phrase that is a source of composition.

また、例えば、情報提供装置10は、単語に代えて、利用者から取得した五感などの生体情報を入力とし、各種生体情報を分散表現した分散表現空間を用いることで、セレンディピティを利用者に起こさせるようなヒントとなる情報を出力してもよい。   Further, for example, the information providing apparatus 10 generates serendipity to the user by using, as a input, biological information such as five senses acquired from the user instead of the word and using a distributed expression space in which various biological information is decentralized and expressed. It may also output information to give hints.

例えば、図6は、実施形態にかかる情報提供装置の入力と出力のバリエーションの第4の例を説明する図である。例えば、図6中(A)に示すように、情報提供装置10は、文献にかえて、過去に取得された生体情報が有する特徴を分散表現空間にマッピングすることで、古い生体情報や異種別の生体情報が有する共通アナロジー(例えば、パターン)を含む分散表現空間を生成する。   For example, FIG. 6 is a diagram illustrating a fourth example of input and output variations of the information providing apparatus according to the embodiment. For example, as shown in (A) in FIG. 6, the information providing device 10 maps the feature of the biological information acquired in the past to the distributed representation space in place of the document, thereby separating the old biological information and the different types of information. A distributed representation space including a common analogy (for example, a pattern) possessed by the biological information of

続いて、情報提供装置10は、図6中(B)に示すように、入力情報から、利用者の生体情報の種別を特定する。また、情報提供装置10は、特定した種別の複数の生体情報が有する特徴を抽出し、抽出した複数の特徴を分散表現に変換する。また、情報提供装置10は、分散表現に変換した特徴の和と類似する特徴を有する生体情報を他種別の生体情報から抽出することで、図6中(C)に示すように、特定した種別とは異なる種別の生体情報が有するアナロジーのうち、特定した種別の生体情報のアナロジーが有する概念と近い概念を有するアナロジーを抽出する。この結果、情報提供装置10は、図6中(D)に示すように、新たな生体情報を惹起させるためのヒントを出力できる。   Subsequently, as shown in (B) of FIG. 6, the information providing apparatus 10 specifies the type of biometric information of the user from the input information. In addition, the information providing apparatus 10 extracts features of a plurality of biological information of the specified type, and converts the extracted features into a distributed representation. In addition, the information providing apparatus 10 extracts the biological information having a feature similar to the sum of the features converted to the distributed representation from the biological information of the other type, thereby identifying the type specified as shown in (C) in FIG. The analogy having a concept close to the concept of the analogy of the specified type of biological information is extracted from the analogies of the different types of biological information. As a result, the information providing apparatus 10 can output a hint for causing new biological information as shown in (D) in FIG.

このように出力されたヒントは、図6中(F)に示すように、例えば、生体情報の元となる利用者にとって心地よい感覚の特定に用いることができる。例えば、情報提供装置10は、利用者から取得した生体情報が好む味覚であった場合に、利用者が好む色彩や音程等を出力することができる。   The hint output in this way can be used, for example, to identify a comfortable sensation for the user who is the source of the biological information, as shown in (F) in FIG. For example, when the biological information acquired from the user is a taste that the information providing device 10 prefers, the information providing device 10 can output a color, a pitch, and the like that the user likes.

なお、上述した処理を実行するためには、単語以外のコンテンツを分散表現空間上にマッピングする必要がある。そこで、情報提供装置10は、例えば、ニューラルネットワークやディープラーニング等の手法を用いて、契約書やビジネス書籍、各種のコンテンツ、生体情報が有する特徴を抽出し、抽出した特徴を示すベクトルを分散表現空間上にマッピングすればよい。すなわち、情報提供装置10は、特徴を分散表現空間上にマッピングすることができる情報であって、複数の種別に分類することができる情報であれば、任意の情報について上述した抽出処理を適用することができる。   In addition, in order to execute the process described above, it is necessary to map content other than words on the distributed representation space. Therefore, the information providing apparatus 10 extracts features of contract documents, business books, various contents, and biological information using, for example, a method such as neural network or deep learning, and distributedly represents the vectors indicating the extracted features. It may be mapped on space. That is, the information providing apparatus 10 applies the above-described extraction process to arbitrary information as long as the information is information that can map features on the distributed representation space and can be classified into a plurality of types. be able to.

〔3.情報提供装置の構成〕
次に、図7を用いて、図1に示した抽出処理を実行する情報提供装置10の構成について説明する。なお、以下の説明では、複数の文献に含まれる単語を分散表現空間上にマッピングし、利用者の発言が属する技術の分野とは異なる分野の単語であって、利用者の発言が属する分野におけるアイデアの概念と類似する概念を有する単語をヒントとして出力する情報提供装置10の一例について説明する。
[3. Configuration of Information Providing Device]
Next, the configuration of the information providing apparatus 10 that executes the extraction process shown in FIG. 1 will be described using FIG. 7. In the following description, the words contained in a plurality of documents are mapped on the distributed expression space, and the words in the field different from the field of technology to which the user's speech belongs, and in the field to which the user's speech belongs An example of the information providing apparatus 10 that outputs a word having a concept similar to the concept of an idea as a hint will be described.

図7は、実施形態にかかる情報提供装置が有する機能構成の一例を示す図である。図7に示すように、情報提供装置10は、入力装置30および出力装置31と接続されている。また、情報提供装置10は、通信部11、記憶部12、および制御部16を有する。   FIG. 7 is a diagram illustrating an example of a functional configuration of the information providing apparatus according to the embodiment. As shown in FIG. 7, the information providing device 10 is connected to the input device 30 and the output device 31. The information providing device 10 further includes a communication unit 11, a storage unit 12, and a control unit 16.

通信部11は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部11は、マイクやキーボード等の入力装置30と、モニタやプリンタ、音声を発声することができるロボット等の出力装置31と接続され、各種情報の送受信を行う。   The communication unit 11 is realized by, for example, a network interface card (NIC). The communication unit 11 is connected to an input device 30 such as a microphone and a keyboard, and an output device 31 such as a monitor and a printer, and a robot that can utter voice, and transmits and receives various information.

記憶部12は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部12は、文献データベース13、分散表現空間データベース14、拡張単語データベース15を有する。   The storage unit 12 is realized by, for example, a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk. The storage unit 12 also includes a document database 13, a distributed expression space database 14, and an expanded word database 15.

文献データベース13には、各種分野に属する文献が登録されている。例えば、文献データベース13には、公開特許公報、公表特許公報、特許公報、論文等、過去になされたアイデアの概念を含む文献が登録されている。   Documents belonging to various fields are registered in the document database 13. For example, in the document database 13, documents including concepts of ideas made in the past, such as published patent publications, published patent publications, patent publications, and papers, are registered.

分散表現空間データベース14には、各種分野に属する単語の分散表現が登録されている。例えば、分散表現空間データベース14には、文献データベース13に登録された文献に含まれる単語を示すベクトルが登録されている。なお、各単語の分散表現は、各単語同士の関係性に基づいて生成されるため、各単語同士の向きや距離は、各単語同士が有する概念や共起性の類似度に対応することとなる。   In the distributed expression space database 14, distributed expressions of words belonging to various fields are registered. For example, in the distributed expression space database 14, vectors indicating words included in documents registered in the document database 13 are registered. In addition, since the distributed expression of each word is generated based on the relationship between each word, the direction or distance between each word corresponds to the similarity of the concept or co-occurrence of each word. Become.

拡張単語データベース15は、単語組を拡張する際に用いる操作的動詞が登録されている。例えば、拡張単語データベース15には、コバーク&バクナールの操作的動詞を含む操作的動詞リストが予め登録されている。   In the expanded word database 15, operation verbs used when expanding a word set are registered. For example, in the extended word database 15, an operational verb list including the Kobark & Baknar operational verbs is registered in advance.

制御部16は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報提供装置10内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部16は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。   The control unit 16 is realized by, for example, a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like executing various programs stored in the storage device inside the information providing apparatus 10 using the RAM as a work area. Be done. Moreover, the control part 16 is implement | achieved by integrated circuits, such as ASIC (Application Specific Integrated Circuit) and FPGA (Field Programmable Gate Array), for example.

図7に示すように、制御部16は、受付部17、分野特定部18、パターン抽出部19、関連単語抽出部20、単語空間限定部21、単語空間拡張部22、提案単語抽出部23、出力部24、学習部25を有する。   As shown in FIG. 7, the control unit 16 includes a reception unit 17, a field specification unit 18, a pattern extraction unit 19, a related word extraction unit 20, a word space limitation unit 21, a word space expansion unit 22, and a suggested word extraction unit 23. An output unit 24 and a learning unit 25 are included.

受付部17は、利用者の発言を入力情報として受付ける。例えば、受付部17は、マイクやキーボード等により実現される入力装置30から利用者の発言を取得する。かかる場合、受付部17は、受付けた利用者の発言をテキストデータに変換する。そして、受付部17は、変換後のテキストデータを分野特定部18に出力する。   The receiving unit 17 receives the user's speech as input information. For example, the reception unit 17 acquires the user's utterance from the input device 30 realized by a microphone, a keyboard, or the like. In such a case, the reception unit 17 converts the received statement of the user into text data. Then, the reception unit 17 outputs the converted text data to the field identification unit 18.

分野特定部18は、入力情報が属する分野を特定する。例えば、分野特定部18は、受付部17から受付けたテキストデータの形態素解析を行い、テキストデータに含まれる単語がどのような分野において使用されている単語であるかを特定する。そして、分野特定部18は、特定した分野をパターン抽出部19に通知する。   The field identification unit 18 identifies the field to which the input information belongs. For example, the field identification unit 18 performs morphological analysis of the text data received from the reception unit 17 and identifies in which field the word included in the text data is a word used. Then, the field identification unit 18 notifies the pattern extraction unit 19 of the identified field.

パターン抽出部19は、特定した分野において所定の関係性を有する複数の単語を含む単語組を抽出する。例えば、パターン抽出部19は、分野特定部18から分野の通知を受付けると、通知された分野に属する文献を文献データベース13から抽出する。そして、パターン抽出部19は、抽出した文献から所定の構造を有する文章を特定し、特定した文章中に所定の順序で含まれる複数の単語を抽出し、抽出した複数の単語を含む単語組を関連単語抽出部20に出力する。   The pattern extraction unit 19 extracts a word set including a plurality of words having a predetermined relationship in the identified field. For example, when receiving the notification of the field from the field identification unit 18, the pattern extraction unit 19 extracts documents belonging to the notified field from the document database 13. Then, the pattern extraction unit 19 specifies a sentence having a predetermined structure from the extracted document, extracts a plurality of words contained in a predetermined order in the specified sentence, and selects a word set including the extracted plurality of words. Output to the related word extraction unit 20.

例えば、図8は、実施形態にかかる情報提供装置が抽出する単語の一例を説明するための図である。図8中(A)に示すように、アイデアの特徴を示す文章は、「(名詞){を}(状態表現語、副詞句){で、によって、にして}(動詞){する、できる}」という構造を有すると予測される。そこで、パターン抽出部19は、通知された分野に属する文献を文献データベース13から抽出し、形態素解析等の技術を用いて、「(名詞){を}(状態表現語、副詞句){で、によって、にして}(動詞){する、できる}」という構造の文章を抽出する。そして、パターン抽出部19は、図8中(B)に示すように、抽出した文章に含まれる名詞を単語#1とし、状態表現語又は副詞句を単語#2とし、動詞を単語#3として抽出し、抽出した各単語#1〜#3を含む単語組を生成する。このようにして生成された単語組は、図8中(C)に示すように、抽出した文章が示すアイデアの特徴、すなわち概念cεを含むこととなる。   For example, FIG. 8 is a diagram for explaining an example of a word extracted by the information providing apparatus according to the embodiment. As shown in (A) of FIG. 8, the sentence indicating the feature of the idea is “(noun) {}} (state expression word, adverb phrase) {with, with} (verb) {perform, can} It is predicted to have a structure of “ Therefore, the pattern extraction unit 19 extracts documents belonging to the notified field from the document database 13, and using a technique such as morphological analysis, “(noun) {}} (state expression word, adverb phrase) { Extract sentences with the structure {}, {can, do}} according to. Then, as shown in (B) in FIG. 8, the pattern extraction unit 19 sets the noun included in the extracted sentence as word # 1, sets the state expression word or adverbial phrase as word # 2, and sets the verb as word # 3. A word set including extracted and extracted words # 1 to # 3 is generated. The word set generated in this manner includes the feature of the idea indicated by the extracted sentence, that is, the concept cε, as shown in (C) in FIG.

図7に戻り、説明を続ける。関連単語抽出部20は、パターン抽出部19が抽出した単語組の中から利用者がより発想しづらい概念であって、提示された際に理解しやすい概念を示す単語組を選択する。例えば、図9は、実施形態にかかる情報提供装置が抽出する単語組の一例を説明する図である。なお、図9に示す例では、複数の公開特許公報を形態素解析し、所定の構造を有する文章から抽出した単語組、すなわち、所定の関係性を有する複数の単語を含む単語組を、各文献の出現順に記載した。   Returning to FIG. 7, the description will be continued. The related word extraction unit 20 selects, from among the word pairs extracted by the pattern extraction unit 19, a word combination that is a concept that is more difficult for the user to conceive and that is easy to understand when presented. For example, FIG. 9 is a diagram for explaining an example of a word set extracted by the information providing apparatus according to the embodiment. In the example shown in FIG. 9, each document is subjected to morphological analysis and a word set extracted from a sentence having a predetermined structure, that is, a word set including a plurality of words having a predetermined relationship, each document Listed in the order of appearance.

例えば、図9中(A)に示すように、「プログラム 作成 実現」、「トレリス構造 縮退 計算」等といった単語組が文献に多く含まれている。しかしながら、このような単語組は、特定した分野において良く使用されている単語組や安定感がある単語組であるため、このような単語組が有するアイデアの概念は、その分野において当たり前に用いられている概念である。この結果、出現頻度が高い単語組は、セレンディピティが低い。   For example, as shown in FIG. 9A, the document contains many word pairs such as “program creation and realization” and “trellis structure degeneration calculation”. However, since such a word set is a word set which is often used in a specified field or a word set having a sense of stability, the concept of the idea which such a word set has is commonly used in the field. Concept. As a result, the frequently appearing word set has low serendipity.

一方、図9中(B)に示すように、「眼鏡 着用 視聴」といった単語組は、特定した分野においての使用頻度があまり高くないため、特定した分野において当たり前ではない概念を示す単語組、すなわち、セレンディピティを起こさせる可能性が高い単語組であると予測される。また、図9中(C)に示すように、出現頻度があまりにも低い単語組、すなわち、出現頻度が所定の閾値よりも低い単語組は、概念が理解しづらいため、利用者にセレンディピティを起こさせる可能性が低くなってしまう。   On the other hand, as shown in (B) in FIG. 9, the word set such as "wearing glasses and watching" is not very frequently used in the specified field, and thus it is a word set showing an uncommon concept in the specified field, It is predicted to be a word set that is likely to cause serendipity. In addition, as shown in FIG. 9C, a word set with an appearance frequency that is too low, that is, a word set with an appearance frequency lower than a predetermined threshold, is difficult to understand, and causes serendipity to the user. The possibility of making it low.

そこで、関連単語抽出部20は、パターン抽出部19が抽出した単語組のうち、特定した分野に属する文献内に、同様の概念を示す単語組の数が第1の閾値以下、第2の閾値以上である単語組を抽出する。この結果、関連単語抽出部20は、特定した分野、すなわち、利用者の発言が属する分野においてセレンディピティを起こしやすい概念を含む単語組を抽出することができる。   Therefore, the related word extraction unit 20 is configured such that, among the word pairs extracted by the pattern extraction unit 19, the number of word pairs showing the same concept is equal to or less than the first threshold, and the second threshold in the documents belonging to the identified field. Extract word pairs that are above. As a result, the related word extraction unit 20 can extract a word set including a concept that is likely to cause serendipity in the specified field, that is, the field to which the user's utterance belongs.

なお、関連単語抽出部20は、単語同士の関連関係を示す関連語辞書を用いて、単語組に含まれるいずれかの単語から同一の単語組に含まれる他の単語までの間に存在する関連語の数を計数する。そして、関連単語抽出部20は、計数した関連語の数が所定の範囲内に収まるような単語組を抽出することで、セレンディピティを起こしやすい概念を含む単語組を抽出してもよい。   Note that the related word extraction unit 20 uses a related word dictionary that indicates a related relation between words, and indicates a relation existing between any word included in the word set and another word included in the same word set. Count the number of words. Then, the related word extraction unit 20 may extract a word set including a concept that is likely to cause serendipity by extracting a word set in which the number of counted related words falls within a predetermined range.

図7に戻り、説明を続ける。単語空間限定部21は、関連単語抽出部20が抽出した単語組に含まれる各単語によって形成される分散表現空間をさらに限定する。具体的には、単語空間限定部21は、文献データベース13に格納された全ての文献のうち、関連単語抽出部20が抽出した単語組が含まれる文章を含む文献の数を計数する。そして、単語空間限定部21は、計数した値を文献の数で除算した値、すなわち、単語組のDFを算出し、算出したDFの値が所定の閾値以下となる単語組を抽出する。この結果、情報提供装置10は、全ての分野を基準としてよりセレンディピティを起こされる可能性が高い概念を含む単語組を抽出することができる。   Returning to FIG. 7, the description will be continued. The word space limiting unit 21 further limits the distributed expression space formed by each word included in the word set extracted by the related word extracting unit 20. Specifically, the word space limitation unit 21 counts, among all the documents stored in the document database 13, the number of documents including sentences including the word set extracted by the related word extraction unit 20. Then, the word space limiting unit 21 calculates a value obtained by dividing the counted value by the number of documents, that is, a DF of the word set, and extracts a word set whose calculated DF value is equal to or less than a predetermined threshold. As a result, the information providing apparatus 10 can extract a word set including a concept that is more likely to cause serendipity based on all fields.

単語空間拡張部22は、単語組に含まれる動詞を所定の操作的動詞に置き換えた複数の単語組を生成する。この結果、単語空間拡張部22は、単語組に含まれる概念を大きく変更することなく、単語空間限定部21によって限定された分散表現空間を拡張する。   The word space expansion unit 22 generates a plurality of word sets in which verbs included in the word set are replaced with predetermined operational verbs. As a result, the word space expanding unit 22 expands the distributed expression space limited by the word space limiting unit 21 without largely changing the concept included in the word set.

例えば、図10は、実施形態にかかる情報提供装置が実行する分散表現空間を拡張する処理の一例を説明するための図である。例えば、単語空間拡張部22は、単語空間限定部21により抽出された単語組として、「アイコン クリック 表示」といった単語組を取得する。かかる場合、単語空間拡張部22は、図10中(A)に示すように、単語組に含まれる動詞「表示」を、図10中(B)に示すように、拡張単語データベース15に登録された操作的動詞リストの各単語に置き換えた単語組を生成する。   For example, FIG. 10 is a diagram for explaining an example of a process of extending the distributed presentation space performed by the information providing apparatus according to the embodiment. For example, the word space expanding unit 22 acquires a word set such as “icon click display” as the word set extracted by the word space limiting unit 21. In such a case, as shown in (A) of FIG. 10, the word space expansion unit 22 registers the verb “display” included in the word set in the expanded word database 15 as shown in (B) of FIG. It generates word pairs replaced with each word in the operation verb list.

この結果、例えば、単語空間拡張部22は、図10中(C)に示すように、「アイコン クリック 増やす」、「アイコン クリック 分割する」「アイコン クリック 除去する」といった単語組を新たに生成する。なお、単語空間拡張部22は、元となる単語組「アイコン クリック 表示」についても、新たに生成した単語組として提案単語抽出部23に出力する。   As a result, for example, as shown in (C) in FIG. 10, the word space expanding unit 22 newly generates word pairs such as “Icon click increase”, “Icon click division”, and “Icon click removal”. The word space expansion unit 22 also outputs the word pair “icon click display” as the original word to the proposal word extraction unit 23 as a newly generated word pair.

このように、単語空間限定部21と単語空間拡張部22とは、関連単語抽出部20により抽出された単語組が含まれる文章の数を、全ての分野の文章の数で除算した値を算出し、算出した値が所定の閾値よりも小さい単語組と操作的動詞とを組み合わせることで、新たな単語組の生成を行う。このようにして新たに生成された単語組は、元の単語組の動詞を変換した単語組であるため、分散表現空間上にマッピングした場合、元の単語組と類似する方向を示すベクトルになると予測されるが、このようなベクトルは、類似する概念を示していると予測される。この結果、情報提供装置10は、抽出された単語組の数が少ない場合にも、単語空間限定部21によって抽出された単語組と類似する概念を含む単語組、すなわち、セレンディピティを生じさせやすい概念を含む単語組を生成することができる。   As described above, the word space restriction unit 21 and the word space expansion unit 22 calculate a value obtained by dividing the number of sentences including the word pair extracted by the related word extraction unit 20 by the number of sentences in all fields. A new word pair is generated by combining a word pair whose calculated value is smaller than a predetermined threshold value and an operation verb. Since the newly generated word set is a word set obtained by converting the verb of the original word set, when mapped on the distributed expression space, the vector will indicate a direction similar to the original word set. Although predicted, such vectors are predicted to indicate similar concepts. As a result, even when the number of extracted word pairs is small, the information providing apparatus 10 includes a word pair including a concept similar to the word pair extracted by the word space limiting unit 21, that is, a concept that easily causes serendipity. Can be generated.

また、単語空間拡張部22は、情報提供装置10が単語以外の情報を処理対象とする場合には、所定の関連性を有する情報の組に対し、操作的動詞と同様に所定の操作を示す情報を組み合わせることで、複数の新たな情報の組を生成してもよい。また、単語空間拡張部22は、例えば、所定の関連性を有する情報の組に含まれる情報のうち、所定の種別の情報を、所定の操作を示す情報に変更した組を生成すればよい。   In addition, when the information providing apparatus 10 targets information other than words, the word space expansion unit 22 indicates a predetermined operation for a set of information having predetermined relevancy similarly to the operation verb. Information may be combined to generate a plurality of new information sets. In addition, the word space expansion unit 22 may generate, for example, a set obtained by changing information of a predetermined type into information indicating a predetermined operation among pieces of information included in a set of information having predetermined relevance.

図7に戻り、説明を続ける。提案単語抽出部23は、特定した分野とは異なる分野に属する単語のうち、抽出された単語組により生じる概念と同様の概念を有する単語を抽出する。例えば、提案単語抽出部23は、単語空間拡張部22が生成した単語組に含まれる各単語をW2Vに入力し、各単語の分散表現を取得する。続いて、提案単語抽出部23は取得した分散表現の和、すなわち、単語組の分散表現を算出する。そして、提案単語抽出部23は、分散表現空間データベース14に格納された分散表現のうち、単語組の分散表現と類似する向きの分散表現であって、単語組の分散表現との距離が離れている分散表現を特定する。すなわち、提案単語抽出部23は、単語組に含まれる単語の分散表現を用いて、単語組により生じる概念との類似度が所定の条件を満たす概念を有する単語を、入力情報が属する分野とは異なる分野に属する単語から抽出する。より具体的には、提案単語抽出部23は、単語組の分散表現との類似度が所定の閾値以下となる分散表現に対応する単語を抽出する。   Returning to FIG. 7, the description will be continued. The proposed word extraction unit 23 extracts words having the same concept as the concept generated by the extracted word set from the words belonging to the field different from the identified field. For example, the suggested word extraction unit 23 inputs each word included in the word set generated by the word space expansion unit 22 to W2V, and acquires a distributed representation of each word. Subsequently, the proposal word extraction unit 23 calculates the sum of the acquired distributed expressions, that is, the distributed expression of the word set. Then, the proposal word extraction unit 23 is a distributed expression of the direction similar to the distributed expression of the word pair among the distributed expressions stored in the distributed expression space database 14, and the distance from the distributed expression of the word pair is separated Identify the distributed expressions that are present. That is, the proposed word extraction unit 23 uses the distributed representation of the words included in the word set to set a word having a concept whose similarity with the concept generated by the word set satisfies a predetermined condition with the field to which the input information belongs. Extract from words that belong to different fields. More specifically, the proposal word extraction unit 23 extracts a word corresponding to a distributed expression in which the degree of similarity with the distributed expression of the word set is equal to or less than a predetermined threshold.

例えば、図11は、実施形態にかかる情報提供装置が実行する分散表現空間の限定と拡張とを説明するための図である。例えば、図11中(A)に示すように、関連単語抽出部20は、セレンディピティを起こしやすい概念を含む単語組として、単語組#1〜#Nを抽出する。かかる場合、図11中(B)に示すように、単語空間限定部21は、文献データベース13に格納された全ての文献について、各単語組#1〜#NのDFの値を算出し、算出したDFの値で単語組のフィルタリングを行う。この結果、単語空間限定部21は、図11中(C)に示すように、DFの値が所定の閾値以下である単語組として、例えば、単語組#1、#3、#N等を抽出する。   For example, FIG. 11 is a diagram for explaining the limitation and expansion of the distributed representation space executed by the information providing apparatus according to the embodiment. For example, as shown in (A) of FIG. 11, the related word extraction unit 20 extracts word pairs # 1 to #N as a word pair including a concept that is likely to cause serendipity. In such a case, as shown in (B) of FIG. 11, the word space limiting unit 21 calculates and calculates the DF value of each of the word pairs # 1 to #N for all the documents stored in the document database 13. Perform word set filtering with the value of DF. As a result, as shown in (C) in FIG. 11, the word space limiting unit 21 extracts, for example, word pairs # 1, # 3, #N, etc., as word pairs whose DF value is less than or equal to a predetermined threshold. Do.

また、単語空間拡張部22は、図11中(D)に示すように、コバーク&バクナールチェックリストを用いて単語組を拡張する。例えば、単語空間拡張部22は、単語組#1に含まれる動詞を、コバーク&バクナールチェックリストに含まれる操作的動詞に置き換えた単語組#1−1〜#1−mを生成する。同様に、単語空間拡張部22は、単語組#3に含まれる動詞を操作的動詞に置き換えた単語組#3−1〜#3−mを生成し、単語組#Nに含まれる動詞を操作的動詞に置き換えた単語組#N−1〜#N−mを生成する。   In addition, as shown in (D) in FIG. 11, the word space expansion unit 22 expands the word pair using the Kovark & Baknar check list. For example, the word space expansion unit 22 generates word pairs # 1-1 to # 1-m in which verbs included in the word pair # 1 are replaced with operation verbs included in the Kovark & Baknar check list. Similarly, the word space expansion unit 22 generates word pairs # 3-1 to # 3-m in which the verb included in word pair # 3 is replaced with an operation verb, and operates the verbs included in word pair #N. Word pairs # N-1 to # N-m replaced with the target verb are generated.

続いて、提案単語抽出部23は、図11中(E)に示すように、各単語組#1−1〜#1−m、#3−1〜#3−m、#N−1〜#N−mごとに、以下の処理を実行する。すなわち、提案単語抽出部23は、単語組に含まれる単語をW2Vに入力してベクトルを取得し、取得したベクトルの和と類似する単語であって、利用者の発言が属する分野、すなわち、特定した分野とは異なる分野の単語を分散表現空間から取得する。   Subsequently, as shown in (E) of FIG. 11, the suggested word extraction unit 23 selects each word pair # 1-1 to # 1-m, # 3-1 to # 3-m, and # N-1 to ##. The following processing is executed for each N−m. That is, the proposal word extraction unit 23 inputs the word included in the word set into W2V to acquire a vector, and is a word similar to the sum of the acquired vectors and is a field to which the user's utterance belongs, that is, identification The words of the field different from the field which has been selected are acquired from the distributed representation space.

以下、提案単語抽出部23が、単語組のベクトルの和と類似する単語であって、特定した分野とは異なる分野の単語を分散表現空間から取得する処理の一例について図面を用いて説明する。例えば、図12は、実施形態にかかる情報提供装置が類似する単語を抽出する処理の一例を説明する図である。例えば、提案単語抽出部23は、図12中(A)に示すように、単語組「眼鏡 着用 視聴」を取得する。かかる場合、提案単語抽出部23は、図12中(B)に示すように、単語組に含まれる各単語、すなわち、「眼鏡」、「着用」、「視聴」をそれぞれW2Vに入力することで、各単語の分散表現、すなわちベクトルを算出する。   Hereinafter, an example of a process in which the proposed word extraction unit 23 acquires a word in a field that is similar to the sum of vectors of word pairs and is different from the identified field from the distributed representation space will be described using the drawings. For example, FIG. 12 is a diagram for explaining an example of processing of extracting similar words by the information providing apparatus according to the embodiment. For example, as shown in FIG. 12A, the suggested word extraction unit 23 acquires the word set “view wearing glasses”. In such a case, as shown in (B) in FIG. 12, the suggested word extraction unit 23 inputs each word included in the word set, that is, “glasses”, “wear”, and “view” into W2V. Compute a distributed representation of each word, ie a vector.

続いて、提案単語抽出部23は、図12中(C)に示すように、単語組のそれぞれの単語のベクトルの和と類似するベクトルを分散表現空間データベース14から抽出し、抽出したベクトルが示す単語を取得する。例えば、提案単語抽出部23は、図12中(D)に示すように、単語組のベクトルとのコサイン距離の値が大きいベクトルが示す単語を取得する。   Subsequently, as shown in (C) in FIG. 12, the suggested word extraction unit 23 extracts a vector similar to the sum of the vectors of the respective words of the word set from the distributed representation space database 14, and the extracted vector indicates Get the word. For example, as shown in FIG. 12D, the suggested word extraction unit 23 acquires a word indicated by a vector having a large cosine distance value from the word set vector.

例えば、図12中(D)に示す例では、コサイン距離の値が大きい順に「高齢」、「配偶」、「出演」、「演技」、「検眼」、「司会」、「不動産_所有」等といった単語が取得される。ここで「不動産_所有」とは、単語「不動産」と単語「所有」とが連続することで1つの熟語として用いられている場合に、形態素解析により1単語として抽出された単語である。   For example, in the example shown in FIG. 12D, “age”, “spouse”, “appearance”, “acting”, “optimization”, “moderator”, “real estate_owned”, etc., in descending order of the cosine distance value. Words such as are obtained. Here, “real estate_owned” is a word extracted as one word by morphological analysis when the word “real estate” and the word “owned” are used as one idiom by being continuous.

ここで、コサイン距離の値が大きい単語は、単語組が示す概念と類似する概念を有する単語であると言える。しかしながら、単純にコサイン距離の値が大きい単語は、利用者が予測していなかった概念を提供するものではないため、セレンディピティが低いと予測される。一方、コサイン距離の値が小さい単語には、単語組が示す概念とは異なる概念を有する単語が含まれるものの、一見して利用者が思いつかないような概念を提供する単語、すなわち、セレンディピティが高い単語も含まれると予測される。   Here, it can be said that a word having a large cosine distance value is a word having a concept similar to the concept indicated by the word set. However, a word having a large cosine distance simply does not provide a concept that the user did not predict, and therefore, the serendipity is predicted to be low. On the other hand, a word with a small value of cosine distance includes a word having a concept different from the concept indicated by the word set, but a word providing a concept that the user does not think at first glance, ie, a high serendipity It is predicted that words will also be included.

例えば、図13は、単語のベクトル同士の関係性の一例を説明するための図である。図13に示す例では、単語「MAN」、「WOMAN」、「UNCLE」、「AUNT」、「KING」、「QUEEN」がマッピングされた分散表現空間の一例を記載した。ここで、図13中(A)に示すように、単語「MAN」から単語「WOMAN」までのベクトル、単語「UNCLE」から単語「AUNT」までのベクトル、単語「KING」から単語「QUEEN」までのベクトルは、それぞれ「単語から男性の概念を除いて女性の概念を加算する」といった同一の概念を示すと考えられる。このため、図13中(B)に示すように、このようなベクトルの矢印が向く方向は一致する。   For example, FIG. 13 is a diagram for explaining an example of the relationship between word vectors. In the example shown in FIG. 13, an example of the distributed representation space to which the words "MAN", "WOMAN", "UNCLE", "AUNT", "KING", and "QUEEN" are mapped is described. Here, as shown in FIG. 13A, a vector from the word “MAN” to the word “WOMAN”, a vector from the word “UNCLE” to the word “AUNT”, and from the word “KING” to the word “QUEEN” These vectors are considered to indicate the same concept, such as “add the concept of a woman excluding the concept of a man from the word”. For this reason, as shown in (B) in FIG. 13, the direction in which the arrows of such vectors point is the same.

一方、単語「KING」と単語「UNCLE」との距離が離れている場合、単語「KING」から単語「UNCLE」を容易に想起できるとは限らないため、図13中(C)に示すように、単語「KING」が示す概念と単語「UNCLE」が示す概念との共起性は小さいと考えられる。しかしながら、このように共起性が小さい概念であっても、ベクトルの方向が向いている場合には、同様の概念を示し得るため、図13中(D)に示すように、セレンディピティを起こす可能性が高いと考えられる。   On the other hand, when the distance between the word “KING” and the word “UNCLE” is long, the word “UNCLE” cannot always be easily recalled from the word “KING”. The co-occurrence between the concept indicated by the word "KING" and the concept indicated by the word "UNCLE" is considered to be small. However, even in such a concept with low co-occurrence, a similar concept can be shown when the vector direction is facing, so that serendipity can occur as shown in FIG. It is considered to be highly sexual.

このため、情報提供装置10は、利用者にセレンディピティを起こす可能性が高い単語として、利用者の発言に含まれる単語との共起性が高いアイデアが有する概念と類似する概念を有する単語であって、利用者の発言に含まれる単語からは共起性が低い単語を提供すればよい。ここで、共起性が低い単語とは、ベクトル同士の距離が離れている単語であり、例えば、異なる分野に属する単語等が該当すると予測される。   Therefore, the information providing apparatus 10 is a word having a concept similar to a concept possessed by an idea having high co-occurrence with a word included in the user's utterance as a word having a high possibility of causing serendipity to the user. The words contained in the user's remarks should be provided with words having low co-occurrence. Here, a word having low co-occurrence is a word in which the distance between vectors is large, and it is predicted that, for example, a word or the like belonging to a different field corresponds.

そこで、提案単語抽出部23は、単語組のベクトルと他の単語を示すベクトルとの距離を算出し、算出した距離が所定の閾値よりも離れているベクトルを特定する。このようにして特定された単語は、利用者の発言と共起性が高いアイデアの概念と類似する概念を含む単語であって、利用者の発言との共起性が低い単語であると予測される。   Therefore, the proposed word extraction unit 23 calculates the distance between the vector of the word set and the vector indicating another word, and identifies the vector whose calculated distance is larger than a predetermined threshold. The word identified in this way is a word including a concept similar to the concept of an idea having high co-occurrence with the user's utterance, and is predicted to be a word having low co-occurrence with the user's utterance. Be done.

例えば、図14は、情報提供装置が提案する単語が有する概念の一例を説明するための図である。図14に示すように、分野#1に属する単語組#1を構成する単語#1〜#3は、それぞれ概念#1〜#3を有する。ここで、概念#1は、概念を形成する複数の要素である要素群#1により形成され、概念#2は、概念を形成する複数の要素である要素群#2により形成され、概念#3は、概念を形成する複数の要素である要素群#3により形成される。このため、単語組#1の概念は、概念#1〜#3の和、すなわち、要素群#1〜#3の和であると考えられる。   For example, FIG. 14 is a figure for demonstrating an example of the concept which the word which an information provision apparatus proposes has. As shown in FIG. 14, words # 1 to # 3 constituting word pair # 1 belonging to field # 1 have concepts # 1 to # 3, respectively. Here, the concept # 1 is formed by an element group # 1 which is a plurality of elements forming a concept, the concept # 2 is formed by an element group # 2 which is a plurality of elements forming a concept, and the concept # 3 Is formed by an element group # 3 which is a plurality of elements forming a concept. Therefore, the concept of word pair # 1 is considered to be the sum of concepts # 1 to # 3, that is, the sum of element groups # 1 to # 3.

ここで、図14中(A)に示すように、ベクトルの距離が遠いほどセレンディピティを生じさせる可能性が高い。しかしながら、単純に距離が離れてしまうと、単語組#1が有する概念と離れすぎてしまうため、セレンディピティが生じにくくなる。そこで、提案単語抽出部23は、図14中(B)に示すように、セレンディピティを生じさせる程度に意味があることを保証することができる程度に、単語組#1と共通する部分がある単語を抽出する。より具体的には、提案単語抽出部23は、単語組#1が有する概念、すなわち、要素群#1〜#3の和と類似する要素群#4によって形成される概念#4を有する単語であって、分野#1との類似性が十分に離れた分野#2に属する単語#4を抽出する。   Here, as shown in FIG. 14A, the possibility of causing serendipity increases as the vector distance increases. However, if the distance is simply separated, the concept is too far from the word set # 1, so serendipity is less likely to occur. Therefore, as shown in (B) in FIG. 14, the suggested word extraction unit 23 is a word having a portion common to the word pair # 1 to such an extent that it can be guaranteed that there is a meaning to the extent that serendipity occurs. Extract More specifically, the proposal word extraction unit 23 is a word having a concept # 4 formed by an element group # 4 similar to the sum of the element groups # 1 to # 3 that the word group # 1 has. It extracts word # 4 belonging to field # 2 which is sufficiently separated from field # 1.

例えば、提案単語抽出部23は、単語組のベクトルとのコサイン距離が所定の閾値よりも大きい(若しくは、所定の範囲内に収まる)ベクトルを抽出し、抽出したベクトルと、単語組に含まれる各単語のベクトルのコサイン距離をそれぞれ算出する。そして、提案単語抽出部23は、算出したコサイン距離の和が所定の閾値よりも小さいベクトルを特定し、特定したベクトルが示す単語を提案する単語とする。すなわち、提案単語抽出部23は、単語組の分散表現の和とのコサイン距離が所定の閾値よりも大きく、かつ、各単語の分散表現とのコサイン距離の和が所定の閾値よりも小さい分散表現に対応する単語を抽出する。   For example, the suggested word extraction unit 23 extracts a vector whose cosine distance with the vector of the word set is larger than a predetermined threshold (or falls within a predetermined range), and the extracted vector and each of the words included in the word set Calculate the cosine distance of the word vector respectively. Then, the suggested word extraction unit 23 specifies a vector in which the sum of the calculated cosine distances is smaller than a predetermined threshold, and sets the word indicated by the specified vector as a suggested word. That is, the proposed word extraction unit 23 is a distributed expression in which the cosine distance with the sum of the distributed expressions of the word set is larger than a predetermined threshold and the sum of the cosine distances with the distributed expressions of each word is smaller than the predetermined threshold. Extract the word corresponding to.

このように、提案単語抽出部23は、単語組に含まれる各単語の分散表現の和を算出し、算出した分散表現の和との類似度が所定の条件を満たす分散表現に対応する単語を抽出する。例えば、提案単語抽出部23は、単語組に含まれる単語の分散表現の和(すなわち、単語組のベクトル)と同様の向きを有する分散表現であって、単語組に含まれる単語の分散表現の和との距離が所定の閾値以上となる分散表現に対応する単語を抽出する。   As described above, the suggested word extraction unit 23 calculates the sum of the distributed expressions of each word included in the word set, and the word corresponding to the distributed expression whose similarity with the calculated distributed expression sum satisfies a predetermined condition Extract. For example, the proposed word extraction unit 23 is a distributed expression having the same direction as the sum of the distributed expressions of the words contained in the word set (ie, a vector of the word set), and is a distributed expression of the words contained in the word set. A word corresponding to a distributed expression whose distance to the sum is equal to or greater than a predetermined threshold is extracted.

例えば、提案単語抽出部23は、「グラフ 一括 付け加える」といった単語組を受信した場合、単語「グラフ」のベクトルと、単語「一括」のベクトルと、単語「付け加える」のベクトルとの和を算出する。次に、提案単語抽出部23は、算出したベクトルの和とのコサイン距離が所定の閾値よりも大きいベクトルとして、単語「回転」のベクトルを特定する。かかる場合、提案単語抽出部23は、単語「回転」のベクトルと単語「グラフ」のベクトルとのコサイン距離、単語「回転」のベクトルと単語「一括」のベクトルとのコサイン距離、単語「回転」のベクトルと単語「付け加える」のベクトルとのコサイン距離をそれぞれ算出し、算出したコサイン距離の和が所定の閾値よりも小さいか否かを判定する。   For example, when the proposed word extracting unit 23 receives a word set such as “graph collective addition”, it calculates the sum of the word “graph” vector, the word “collective” vector, and the word “add” vector. . Next, the proposal word extraction unit 23 specifies the vector of the word “rotation” as a vector whose cosine distance with the calculated sum of vectors is larger than a predetermined threshold. In this case, the suggested word extraction unit 23 calculates the cosine distance between the vector of the word "rotation" and the vector of the word "graph", the cosine distance between the vector of the word "rotation" and the vector of the word "collective", the word "rotation" The cosine distance between each vector and the vector “add” is calculated, and it is determined whether or not the sum of the calculated cosine distances is smaller than a predetermined threshold.

すなわち、提案単語抽出部23は、単語組のベクトルを構成する各単語ベクトルとの距離が所定の閾値よりも小さいか否かを判定する。そして、提案単語抽出部23は、単語「回転」のベクトルについて、単語組のベクトルを構成する各単語ベクトルとの距離が所定の閾値よりも小さいと判定した場合は、単語「回転」を提案する単語とする。   That is, the proposal word extraction unit 23 determines whether the distance to each word vector constituting the word set vector is smaller than a predetermined threshold. Then, when it is determined that the distance between the word “rotation” vector and each word vector forming the word group vector is smaller than a predetermined threshold, the proposal word extraction unit 23 proposes the word “rotation”. It is a word.

図7に戻り、説明を続ける。出力部24は、提案単語抽出部23が抽出した単語を提案として出力する。例えば、出力部24は、提案単語抽出部23が単語「回転」を抽出した場合に、「回転させるのはどう?」等といった提案を行う文章を生成し、生成した文章を出力装置31に送信する。この結果、出力装置31は、情報提供装置10が抽出した単語、すなわち、利用者にセレンディピティを生じさせるような単語を出力することができる。   Returning to FIG. 7, the description will be continued. The output unit 24 outputs the word extracted by the proposal word extraction unit 23 as a proposal. For example, when the suggested word extraction unit 23 extracts the word "rotation", the output unit 24 generates a sentence to make a proposal such as "how to rotate" and transmits the generated sentence to the output device 31 Do. As a result, the output device 31 can output a word extracted by the information providing device 10, that is, a word that causes a serendipity to the user.

学習部25は、分散表現空間データベース14が記憶する分散表現空間の学習を行う。例えば、学習部25は、文献データベース13に含まれる各文献の形態素解析を行い、W2Vの技術を用いて、各文献に含まれる単語同士の関係性に基づく分散表現を学習する。そして、学習部25は、学習結果を分散表現空間データベース14に登録する。   The learning unit 25 performs learning of the distributed expression space stored in the distributed expression space database 14. For example, the learning unit 25 performs morphological analysis of each document included in the document database 13, and uses W2V technology to learn a distributed expression based on the relationship between words included in each document. Then, the learning unit 25 registers the learning result in the distributed expression space database 14.

〔4.情報提供装置10が実行する処理の流れ〕
次に、図15〜図17を用いて、情報提供装置10が実行する処理の流れについて説明する。まず、図15を用いて、情報提供装置10が実行する抽出処理の流れについて説明する。図15は、実施形態にかかる情報提供装置が実行する抽出処理の流れを説明するフローチャートである。
[4. Flow of processing executed by information providing apparatus 10]
Next, the flow of the process performed by the information providing apparatus 10 will be described with reference to FIGS. First, the flow of the extraction process performed by the information providing device 10 will be described with reference to FIG. FIG. 15 is a flowchart illustrating the flow of the extraction process performed by the information providing apparatus according to the embodiment.

図15に示すように、情報提供装置10は、入力情報を取得すると(ステップS101)、取得した入力情報が属する分野を特定する(ステップS102)。続いて、情報提供装置10は、特定した分野に属する文献データから、所定の関係性を満たす単語組を抽出する(ステップS103)。すなわち、情報提供装置10は、cε辞典法の構造を有する特定構文から、単語組を抽出する。そして、情報提供装置10は、抽出した単語組からセレンディピティを起こし得る単語組を選択し(ステップS104)、単語組の分散表現を用いて、単語組により生じる概念と類似度が所定の条件を満たす単語を抽出する(ステップS105)。すなわち、情報提供装置10は、単語組が属する分野以外の分野に属する単語であって、単語組が有する概念と類似する概念を有する単語を抽出する。そして、情報提供装置10は、抽出した単語をヒントとして出力し(ステップS106)、処理を終了する。   As illustrated in FIG. 15, when the information providing apparatus 10 acquires input information (step S101), the information providing apparatus 10 specifies a field to which the acquired input information belongs (step S102). Subsequently, the information providing apparatus 10 extracts a word set satisfying a predetermined relationship from the document data belonging to the identified field (step S103). That is, the information providing device 10 extracts a word set from the specific syntax having the structure of the cε dictionary method. Then, the information providing apparatus 10 selects a word set that can cause serendipity from the extracted word set (step S104), and using the distributed expression of the word set, the concept and the similarity caused by the word set satisfy a predetermined condition A word is extracted (step S105). That is, the information providing device 10 extracts words that belong to a field other than the field to which the word set belongs and that has a concept similar to the concept that the word set has. Then, the information providing device 10 outputs the extracted word as a hint (step S106), and ends the process.

次に、図16を用いて、単語組が属する分野以外の分野に属する単語であって、単語組が有する概念と類似する概念を有する単語を抽出するための各種処理の流れをより具体的に説明する。図16は、実施形態にかかる情報提供装置が実行する抽出処理の具体的な処理の流れを説明するフローチャートである。なお、図16に示すステップS201〜S206は、図15に示すステップS103〜S105の処理をより具体的にしたものである。   Next, using FIG. 16, the flow of various processes for extracting words that belong to a field other than the field to which the word set belongs and that has a concept similar to the concept that the word set has is more specifically explain. FIG. 16 is a flowchart illustrating the flow of a specific process of the extraction process performed by the information providing apparatus according to the embodiment. Steps S201 to S206 shown in FIG. 16 are more specific examples of the processes of steps S103 to S105 shown in FIG.

例えば、情報提供装置10は、入力情報が属する分野に属する文献データの形態素解析を行い(ステップS201)、所定のパターンに合致する文字列を特定する(ステップS202)。そして、情報提供装置10は、特定した文字列に含まれる単語から単語組を生成する(ステップS203)。   For example, the information providing apparatus 10 performs morphological analysis of document data belonging to the field to which the input information belongs (step S201), and specifies a character string that matches a predetermined pattern (step S202). Then, the information providing device 10 generates a word set from the words included in the specified character string (step S203).

また、情報提供装置10は、生成した単語組からセレンディピティを起こしやすい単語組を選択し(ステップS204)、選択した単語組から操作的動詞を用いて単語組のバリエーションを生成する(ステップS205)。そして、情報提供装置10は、選択した単語組をW2Vに入力し、方向を含めた類似度、すなわち、単語組のベクトルとのコサイン距離が所定の範囲内であって、方向を含めない類似度、すなわち、単語組に含まれる各単語のベクトルとのコサイン距離の和が所定の閾値以下となる単語を抽出する(ステップS206)。   Further, the information providing apparatus 10 selects a word group that is likely to cause serendipity from the generated word group (step S204), and generates a variation of the word group from the selected word group using an operational verb (step S205). Then, the information providing apparatus 10 inputs the selected word set into W2V, and the similarity including the direction, that is, the similarity not including the direction but having the cosine distance with the vector of the word set within the predetermined range. That is, a word whose sum of cosine distances with the vector of each word included in the word set is equal to or less than a predetermined threshold is extracted (step S206).

次に、図17を用いて、単語組の中からセレンディピティを起こしやすい単語組を選択し、選択した単語組から単語組のバリエーションを生成する処理の流れをより具体的に説明する。図17は、実施形態にかかる情報提供装置がセレンディピティを起こしやすい単語組を選択する処理の具体的な処理の流れを説明するフローチャートである。なお、図17に示すステップS301〜S303は、図16に示すステップS204、S205の処理をより具体的にしたものである。   Next, with reference to FIG. 17, a flow of processing for selecting a word set likely to cause serendipity from among word sets and generating variations of the word set from the selected word set will be more specifically described. FIG. 17 is a flowchart for explaining the flow of a specific process of the process in which the information providing apparatus according to the embodiment selects a word set which is likely to cause serendipity. Steps S301 to S303 shown in FIG. 17 are more specific examples of the processes of steps S204 and S205 shown in FIG.

例えば、情報提供装置10は、生成した単語組のDFをそれぞれ算出する(ステップS301)。また、情報提供装置10は、生成した単語組のDFの値が所定の閾値以下となる単語組を選択する(ステップS302)。そして、情報提供装置10は、操作的動詞リストを用いて、選択した単語組のバリエーションを生成する(ステップS303)。   For example, the information providing device 10 calculates DF of the generated word set (step S301). Further, the information providing apparatus 10 selects a word pair in which the value of the DF of the generated word pair is less than or equal to a predetermined threshold (step S302). Then, the information providing device 10 generates a variation of the selected word set using the operational verb list (step S303).

〔5.変形例〕
上記では、図1に例示した態様を用いながら、情報提供装置10が実行する抽出処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する抽出処理のバリエーションについて説明する。
[5. (Modification)
In the above, an example of the extraction process performed by the information providing apparatus 10 has been described using the aspect illustrated in FIG. 1. However, the embodiments are not limited to this. Hereinafter, variations of the extraction process performed by the information providing apparatus 10 will be described.

〔5−1.各種のパラメータについて〕
上述した情報提供装置10は、セレンディピティを起こし得る単語を抽出するため、例えば、抽出した単語組のうち、DFの値が所定の閾値(以下、第1閾値と記載する。)以下の単語組を抽出した。また、情報提供装置10は、単語組のベクトルとのコサイン距離が所定の範囲(以下、第1範囲と記載する。)内となるベクトルであって、単語組に含まれる各単語のベクトルとのコサイン距離の和が所定の閾値(以下、第2閾値と記載する。)以下となるベクトルを抽出した。ここで、情報提供装置10が採用する各種の閾値は、任意の閾値が採用可能である。
[5-1. (Various parameters)
In order to extract words that can cause serendipity, the information providing apparatus 10 described above, for example, selects, from among the extracted word pairs, word pairs whose DF value is a predetermined threshold (hereinafter, referred to as a first threshold). Extracted. In addition, the information providing device 10 is a vector whose cosine distance with the vector of the word set is within a predetermined range (hereinafter referred to as a first range), and with the vector of each word included in the word set. A vector whose sum of cosine distances is equal to or less than a predetermined threshold (hereinafter referred to as a second threshold) was extracted. Here, as the various threshold values adopted by the information providing apparatus 10, arbitrary threshold values can be adopted.

例えば、情報提供装置10は、一見した際にはわかりづらいものの、熟考した際にセレンディピティが生じやすい単語を出力する場合は、第1閾値の値をより低くしてもよく、第2閾値の値をより小さくしてもよい。また、情報提供装置10は、第1範囲をより狭く設定してもよい。   For example, when the information providing apparatus 10 outputs a word that is difficult to understand at first glance but is prone to serendipity when considered, the value of the first threshold may be set lower. May be smaller. In addition, the information providing device 10 may set the first range narrower.

〔5−2.セレンディピティを生じさせやすい単語組について〕
上述した例では、情報提供装置10は、セレンディピティを起こさせる可能性を高めるため、抽出した単語組からセレンディピティを起こさせる可能性が高い単語を選択した。例えば、関連単語抽出部20は、各単語組の出現頻度や単語同士の関係性等に基づいて、単語組の選択を行った。しかしながら、実施形態は、これに限定されるものではない。
[5-2. (About word sets that are prone to serendipity
In the above-described example, the information providing apparatus 10 selects a word that is highly likely to cause serendipity from the extracted word set in order to increase the possibility of causing serendipity. For example, the related word extraction unit 20 selects a word set based on the appearance frequency of each word set, the relationship between words, and the like. However, the embodiments are not limited to this.

例えば、情報提供装置10は、分野ごとに、セレンディピティを起こし得る単語組を予め選択しておいてもよい。また、かかる選択処理は、人の手によって予め行われていてもよい。例えば、情報提供装置10は、所定の関係性を有する複数の単語を含む単語組を文献データから抽出し、抽出した単語組をオペレータに提示する。そして、情報提供装置10は、オペレータが選択した単語組を、セレンディピティを起こし得る単語組として予め選択しておいてもよい。   For example, the information providing device 10 may preselect a word set that can cause serendipity for each field. Also, such selection processing may be performed in advance by human hands. For example, the information providing apparatus 10 extracts a word set including a plurality of words having a predetermined relationship from the document data, and presents the extracted word set to the operator. Then, the information providing device 10 may preselect a word set selected by the operator as a word set that can cause serendipity.

〔5−3.情報提供装置が実行する処理〕
上述した説明では、情報提供装置10は、入力情報が属する分野の情報から所定の関係性を有する複数の情報を特定し、特定した複数の情報により生じる概念と同様の概念を有する情報を、特定した分野とは異なる分野に属する情報から抽出した。しかしながら、実施形態は、これに限定されるものではない。すなわち、情報提供装置10は、入力情報が属する分野と異なる分野の情報の中から、入力情報と暗黙的なつながりを保持しつつ、明示的には不連続な関係性を有する情報を出力できるのであれば、異なる処理により、出力する情報を抽出してもよい。
[5-3. Processing performed by information providing device]
In the above description, the information providing apparatus 10 identifies a plurality of pieces of information having a predetermined relationship from the information of the field to which the input information belongs, and identifies the information having the same concept as the concept generated by the identified plurality of pieces of information Extracted from information belonging to a different field. However, the embodiments are not limited to this. That is, the information providing apparatus 10 can explicitly output information having a discontinuous relationship while holding the implicit connection with the input information out of the information in the field different from the field to which the input information belongs. If there is, the information to be output may be extracted by different processes.

例えば、図18は、入力分野の情報と異分野の情報とに関係のある情報を出力する処理の一例を説明する図である。なお、図18に示す例では、情報提供装置10が実行する処理のバリエーションとして、入力情報が属する分野の情報と、入力情報が属する分野とは異なる分野の情報との双方を分析し、双方の情報に関連性のある情報を出力する処理の一例について記載した。   For example, FIG. 18 is a diagram illustrating an example of a process for outputting information related to information in an input field and information in a different field. In the example shown in FIG. 18, as a variation of the process executed by the information providing apparatus 10, both the information of the field to which the input information belongs and the information of the field different from the field to which the input information belongs are analyzed. An example of a process for outputting information relevant to information has been described.

例えば、図18に示すように、利用者が新たなアイデアを思案する場合、参考になるであろう情報が属する分野は、教育業、電力供給業、銀行業等、多岐に渡る。このため、利用者は、図18中(A)に示すように、これら全ての分野の情報を考慮して、新たなアイデアを思索するのが困難である。   For example, as shown in FIG. 18, when the user thinks of a new idea, the fields to which the information to be helpful belongs include a wide variety of fields such as education, power supply, and banking. For this reason, as shown in FIG. 18A, it is difficult for the user to consider a new idea in consideration of information in all these fields.

そこで、情報提供装置10は、以下の処理を実行する。まず、情報提供装置10は、利用者から入力情報を受付ける。このような場合、情報提供装置10は、入力情報が属する分野を特定する。また、情報提供装置10は、特定した分野とは異なる分野(異分野)を抽出する。そして、情報提供装置10は、入力情報が属する分野に属する情報と、かかる分野とは異なる分野に属する情報との双方を分析し、双方の情報に関連性のある情報を特定する。そして、情報提供装置10は、特定した情報を出力する。   Therefore, the information providing device 10 executes the following process. First, the information providing device 10 receives input information from the user. In such a case, the information providing apparatus 10 identifies the field to which the input information belongs. In addition, the information providing apparatus 10 extracts a field (different field) different from the identified field. Then, the information providing apparatus 10 analyzes both information belonging to the field to which the input information belongs and information belonging to a field different from the field, and specifies information relevant to both information. Then, the information providing device 10 outputs the specified information.

例えば、利用者は、図18中(B)に示すように、情報提供装置10に対して、思いついた単語等の任意の情報を入力情報として入力する。このような場合、情報提供装置10は、図18中(C)に示すように、入力情報が属する分野を特定する。例えば、情報提供装置10は、入力情報が「プロパンガス」等といった情報であれば、「ガス供給業」を入力情報が属する分野として特定する。   For example, as shown in FIG. 18B, the user inputs arbitrary information such as a word that has come up to the information providing apparatus 10 as input information. In such a case, the information providing apparatus 10 identifies the field to which the input information belongs, as shown in (C) in FIG. For example, if the input information is information such as “propane gas”, the information providing apparatus 10 identifies “gas supply industry” as the field to which the input information belongs.

続いて、情報提供装置10は、特定した分野とは異なる分野を抽出する。例えば、情報提供装置10は、特定した分野「ガス供給業」とは異なる分野として「広告業」を抽出する。なお、情報提供装置10は、入力情報が属する分野とは異なる分野を、複数選択してもよい。また、情報提供装置10は、上述した各種の処理を用いて、入力情報が属する分野とは、意味が離れている分野(例えば、分散表現空間上における距離が遠い分野)を選択してもよい。   Subsequently, the information providing apparatus 10 extracts a field different from the identified field. For example, the information providing apparatus 10 extracts the “advertising business” as a field different from the identified field “gas supply industry”. The information providing apparatus 10 may select a plurality of fields different from the fields to which the input information belongs. Further, the information providing apparatus 10 may select a field (for example, a field in which the distance on the distributed representation space is far) having a meaning different from the field to which the input information belongs using the various processes described above. .

そして、情報提供装置10は、入力情報が属する分野と抽出した分野との双方の情報を分析し、双方の情報に関係のある情報を特定する。例えば、情報提供装置10は、各分野に属する単語の属性、概念、意味等を分散表現空間上における単語間の距離や向きを用いて比較し、双方の分野に関係のある情報を特定する。また、例えば、情報提供装置10は、分散表現空間上における単語の向きが近く、距離が遠い単語同士を抽出する。そして、情報提供装置10は、図18中(F)に示すように、抽出した単語を出力する。   Then, the information providing apparatus 10 analyzes information on both the field to which the input information belongs and the extracted field, and specifies information related to both information. For example, the information providing apparatus 10 compares attributes, concepts, meanings, and the like of words belonging to the respective fields using the distance and direction between the words in the distributed expression space, and specifies information relevant to both the fields. Further, for example, the information providing device 10 extracts words in which the directions of the words in the distributed representation space are close and the distance is long. Then, the information providing device 10 outputs the extracted word as shown in (F) in FIG.

このような処理を実行した結果、情報提供装置10は、通常の思考では浮かばない単語の組み合わせを出力することができるので、利用者にセレンディピティを生じさせることができる。なお、上述した処理以外にも、情報提供装置10は、入力情報が属する分野と、異分野との双方に関係のある情報を出力するのであれば、任意の分析手法を採用することができる。   As a result of performing such processing, the information providing apparatus 10 can output a combination of words that does not float by ordinary thinking, and thus can generate serendipity for the user. In addition to the process described above, any information analysis method may be adopted as long as the information providing apparatus 10 outputs information related to both the field to which the input information belongs and the different field.

なお、上述した情報提供装置10は、入力情報として任意の情報を採用することができる。例えば、情報提供装置10は、入力情報として、テキスト、ビジネスの特徴、音や画像等のコンテンツ、生体情報等を採用し、入力情報が属する分野と、異分野との双方の情報に関係のある情報として、テキスト、ビジネスの特徴、コンテンツ、生体情報等を出力すればよい。また、情報提供装置10は、上述した実施形態において説明した書く処理のうち、任意の処理を矛盾させない範囲で利用可能である。   Note that the information providing apparatus 10 described above can adopt any information as input information. For example, the information providing apparatus 10 adopts, as input information, text, business features, contents such as sounds and images, biometric information, etc., and relates to information in both the field to which the input information belongs and different fields. As information, text, business characteristics, content, biometric information, etc. may be output. In addition, the information providing apparatus 10 can be used within a range in which arbitrary processes are not contradicted among the writing processes described in the above-described embodiments.

〔5−4.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
[5-4. Others]
Further, among the processes described in the above embodiment, all or part of the process described as being automatically performed may be manually performed, or the process described as being manually performed. All or part of them can be performed automatically by known methods. In addition, information including processing procedures, specific names, various data and parameters shown in the above-mentioned documents and drawings can be arbitrarily changed unless otherwise specified. For example, the various information shown in each figure is not limited to the illustrated information.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図7に示した単語空間限定部21と単語空間拡張部22とは統合されてもよい。   Further, each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. It can be integrated and configured. For example, the word space limiting unit 21 and the word space expanding unit 22 illustrated in FIG. 7 may be integrated.

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。   Moreover, it is possible to combine suitably each embodiment mentioned above in the range which does not contradict process content.

〔5−5.プログラム〕
また、上記してきた実施形態にかかる情報提供装置10は、例えば、図19に示すような構成のコンピュータ1000によって実現される。図19は、抽出処理を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、およびメディアインターフェイス(I/F)1700を有する。
[5-5. program〕
Further, the information providing apparatus 10 according to the embodiment described above is realized by, for example, a computer 1000 configured as shown in FIG. FIG. 19 is a hardware configuration diagram showing an example of a computer that implements extraction processing. The computer 1000 includes a CPU 1100, a RAM 1200, a ROM 1300, an HDD 1400, a communication interface (I / F) 1500, an input / output interface (I / F) 1600, and a media interface (I / F) 1700.

CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。   The CPU 1100 operates based on a program stored in the ROM 1300 or the HDD 1400 and controls each unit. The ROM 1300 stores a boot program executed by the CPU 1100 when the computer 1000 starts up, a program depending on the hardware of the computer 1000, and the like.

HDD1400は、CPU1100によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、ネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを他の機器へ送信する。   The HDD 1400 stores programs executed by the CPU 1100, data used by the programs, and the like. The communication interface 1500 receives data from other devices via the network N, sends the data to the CPU 1100, and transmits the data generated by the CPU 1100 to the other devices.

CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、および、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。   The CPU 1100 controls an output device such as a display and a printer and an input device such as a keyboard and a mouse via the input / output interface 1600. The CPU 1100 acquires data from the input device via the input / output interface 1600. In addition, the CPU 1100 outputs the generated data to the output device via the input / output interface 1600.

メディアインターフェイス1700は、非一時的にコンピュータが読み取り可能な記憶媒体の一例である記録媒体1800に格納された情報提供プログラム等のプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。   The media interface 1700 reads a program or data such as an information providing program stored in a recording medium 1800, which is an example of a non-transitory computer readable storage medium, and provides the read program or data to the CPU 1100 via the RAM 1200. The CPU 1100 loads such a program from the recording medium 1800 onto the RAM 1200 via the media interface 1700, and executes the loaded program. The recording medium 1800 is, for example, an optical recording medium such as a DVD (Digital Versatile Disc) or PD (Phase change rewritable disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory. Etc.

例えば、コンピュータ1000が実施形態にかかる情報提供装置10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部16の機能を実現する。また、HDD1400には、記憶部12内のデータ、すなわち文献データベース13、分散表現空間データベース14、拡張単語データベース15が格納される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置からこれらのプログラムを取得してもよい。   For example, when the computer 1000 functions as the information providing apparatus 10 according to the embodiment, the CPU 1100 of the computer 1000 realizes the function of the control unit 16 by executing a program loaded on the RAM 1200. The HDD 1400 also stores data in the storage unit 12, that is, a document database 13, a distributed expression space database 14, and an expanded word database 15. The CPU 1100 of the computer 1000 reads these programs from the recording medium 1800 and executes them. However, as another example, these programs may be acquired from other devices.

〔6.効果〕
上述したように、情報提供装置10は、入力情報を受付けると、入力情報から特定構文を特定し、特定した特定構文に埋め込まれた単語群を抽出する。また、情報提供装置10は、特定構文に含まれる単語群の分散表現を用いて、他の単語の分散表現との類似度を算出する。そして、情報提供装置10は、算出した類似度に基づいて抽出した情報を出力する。このため、情報提供装置10は、利用者が思い浮かばない情報を提供することができるので、利用者にセレンディピティを生じさせることができるような情報を出力することができる。
[6. effect〕
As described above, when receiving the input information, the information providing apparatus 10 specifies a specific syntax from the input information, and extracts a word group embedded in the specified specific syntax. Further, the information providing apparatus 10 calculates the degree of similarity with the distributed expressions of other words using the distributed expression of the word group included in the specific syntax. Then, the information providing device 10 outputs the information extracted based on the calculated degree of similarity. Therefore, the information providing apparatus 10 can provide information that the user does not think of, so that information that can cause the user to generate serendipity can be output.

また、情報提供装置10は、cε辞典法を用いて、特定構文を特定する。このため、情報提供装置10は、ある分野においてセレンディピティを生じさせる可能性を有するパターンを有する文章に含まれる単語群から、かかる単語群が有する特徴と類似する特徴を有する単語を出力することができるので、利用者にセレンディピティを生じさせる可能性を担保しつつ、利用者より思い浮かびづらい情報を提供することができる。   Further, the information providing device 10 specifies a specific syntax using the cε dictionary method. Therefore, the information providing apparatus 10 can output, from a word group included in a sentence having a pattern having a possibility of causing serendipity in a certain field, a word having a feature similar to a feature of the word group. Therefore, it is possible to provide information that is hard to come up with than the user while ensuring the possibility of causing serendipity for the user.

また、情報提供装置10は、等価変換理論に基づいて、単語群と同様のアナロジーを有し、かかる単語群と異なる分野に属する単語を出力する。単語群により生じる概念を保ちつつ、利用者がより思い浮かびづらい情報を提供することができるので、利用者にセレンディピティを生じさせることができるような情報を出力することができる。   Moreover, the information provision apparatus 10 has the analogy similar to a word group based on the equivalent conversion theory, and outputs the word which belongs to the field | area different from this word group. Since the user can provide information that is less likely to come to mind while keeping the concept generated by the word group, it is possible to output information that can cause the user to generate serendipity.

また、情報提供装置10は、単語群の分散表現の和と類似する分散表現に対応する単語や、単具群の分散表現の和との類似度が所定の範囲内に収まる分散表現に対応する情報を抽出する。このため、情報提供装置10は、利用者にセレンディピティを生じさせることができるような情報を出力することができる。   Further, the information providing apparatus 10 corresponds to a distributed expression in which the degree of similarity with the word corresponding to the distributed expression similar to the sum of the distributed expressions of the word group and the sum of the distributed expression of the single instrument group falls within a predetermined range. Extract information. Therefore, the information providing apparatus 10 can output information that can cause the user to generate serendipity.

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。   As described above, some of the embodiments of the present application have been described in detail with reference to the drawings. However, these are merely examples, and various modifications, including the aspects described in the disclosure section of the invention, based on the knowledge of those skilled in the art, It is possible to implement the present invention in other forms with improvements.

また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、制御部は、制御手段や制御回路に読み替えることができる。   Also, the "section (module, unit)" described above can be read as "means" or "circuit". For example, the control unit can be read as control means or a control circuit.

10 情報提供装置
11 通信部
12 記憶部
13 文献データベース
14 分散表現データベース
15 拡張単語データベース
16 制御部
17 受付部
18 分野特定部
19 パターン抽出部
20 関連単語抽出部
21 単語空間限定部
22 単語空間拡張部
23 提案単語抽出部
24 出力部
25 学習部
30 入力装置
31 出力装置
DESCRIPTION OF SYMBOLS 10 Information provision apparatus 11 Communication part 12 Storage part 13 Document database 14 Distributed expression database 15 Expansion word database 16 Control part 17 Reception part 18 Field identification part 19 Pattern extraction part 20 Related word extraction part 21 Word space limitation part 22 Word space expansion part 23 Suggested Word Extraction Unit 24 Output Unit 25 Learning Unit 30 Input Device 31 Output Device

Claims (7)

入力情報を受付ける受付部と、
入力情報から業種および特定構文とその特定構文に埋め込まれた単語群を抽出するパターン特定部と、
前記業種とは異なる業種の情報から抽出された単語の分散表現と、前記特定した前記パターンにふくまれる、前記単語群の分散表現を用いて、類似度を算出する類似度算出部と、
前記異なる業種の情報から抽出された単語のうち、前記類似度算出部が算出した類似度が所定の条件を満たす単語を、前記入力情報のアナロジーとなる情報として出力する出力部と
を有することを特徴とする情報提供装置。
A reception unit for receiving input information;
A pattern identification unit that extracts, from input information, a type of business, a specific syntax, and a word group embedded in the specific syntax;
And distributed representation of a word extracted from the information of different industries and the industries, and the included in the identified said pattern, using a distributed representation of the word groups, the similarity calculating section for calculating a degree of similarity,
Outputting, among the words extracted from the information of the different type of industry, a word whose similarity calculated by the similarity calculation unit satisfies a predetermined condition as information serving as an analogy of the input information; A characteristic information providing apparatus.
前記パターン特定部はcε辞典法を用いることを特徴とする
請求項1に記載の情報提供装置。
The information providing apparatus according to claim 1, wherein the pattern identification unit uses a cε dictionary method.
前記出力部は、等価変換理論に基づいて、前記単語群と同様のアナロジーを有し、当該単語群と異なる分野に属する単語を出力する
ことを特徴とする請求項1または2に記載の情報提供装置。
The information providing system according to claim 1 or 2, wherein the output unit outputs a word having an analogy similar to the word group based on equivalence conversion theory and belonging to a field different from the word group. apparatus.
前記出力部は、単語群の分散表現の和と類似する分散表現に対する単語を出力する
ことを特徴とする請求項1〜3のいずれか1つに記載の情報提供装置。
The information providing apparatus according to any one of claims 1 to 3, wherein the output unit outputs a word corresponding to a distributed expression similar to a sum of the distributed expressions of word groups.
前記出力部は、単語群の分散表現の和との類似度が、所定の範囲内に収まる分散表現に対応する単語を出力する
ことを特徴とする請求項1〜4のいずれか1つに記載の情報提供装置。
The said output part outputs the word corresponding to the distributed expression in which the similarity degree with the sum of the distributed expression of a word group falls within a predetermined range. Information provision device.
情報提供装置が実行する情報提供方法であって、
入力情報を受付ける受付工程と、
入力情報から業種および特定構文とその特定構文に埋め込まれた単語群を抽出するパターン特定工程と、
前記業種とは異なる業種の情報から抽出された単語の分散表現と、前記特定した前記パターンにふくまれる、前記単語群の分散表現を用いて、類似度を算出する類似度算出工程と、
前記異なる業種の情報から抽出された単語のうち、前記類似度算出工程で算出した類似度が所定の条件を満たす単語を、前記入力情報のアナロジーとなる情報として出力する出力工程と
を含むことを特徴とする情報提供方法。
An information providing method performed by an information providing apparatus, comprising:
A reception process for receiving input information;
A pattern identification process that extracts the industry type and specific syntax from the input information and a group of words embedded in the specific syntax,
And distributed representation of a word extracted from the information of different industries and the industries, the included in the identified said pattern, using a distributed representation of the word group, a similarity calculation step of calculating the similarity,
Outputting, among the words extracted from the information of the different types of industry, a word whose similarity calculated in the similarity calculation step satisfies a predetermined condition as information that is analogous to the input information; A characteristic information providing method.
入力情報を受付ける受付手順と、
入力情報から業種および特定構文とその特定構文に埋め込まれた単語群を抽出するパターン特定手順と、
前記業種とは異なる業種の情報から抽出された単語の分散表現と、前記特定した前記パターンにふくまれる、前記単語群の分散表現を用いて、類似度を算出する類似度算出手順と、
前記異なる業種の情報から抽出された単語のうち、前記類似度算出手順で算出した類似度が所定の条件を満たす単語を、前記入力情報のアナロジーとなる情報として出力する出力手順と
をコンピュータに実行させることを特徴とする情報提供プログラム。
Acceptance procedure to accept input information,
A pattern identification procedure for extracting a business type and a specific syntax and a word group embedded in the specific syntax from input information;
And distributed representation of a word extracted from the information of different industries and the industries, the included in the identified said pattern, using a distributed representation of the word groups, and similarity calculation step of calculating the similarity,
An output procedure for outputting a word whose similarity calculated in the similarity calculation procedure satisfies a predetermined condition among the words extracted from the information of the different industry as an information that becomes an analogy of the input information An information providing program characterized by having
JP2015184649A 2015-09-18 2015-09-18 Information providing apparatus, information providing method, and information providing program Active JP6552353B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015184649A JP6552353B2 (en) 2015-09-18 2015-09-18 Information providing apparatus, information providing method, and information providing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015184649A JP6552353B2 (en) 2015-09-18 2015-09-18 Information providing apparatus, information providing method, and information providing program

Publications (2)

Publication Number Publication Date
JP2017059077A JP2017059077A (en) 2017-03-23
JP6552353B2 true JP6552353B2 (en) 2019-07-31

Family

ID=58391602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015184649A Active JP6552353B2 (en) 2015-09-18 2015-09-18 Information providing apparatus, information providing method, and information providing program

Country Status (1)

Country Link
JP (1) JP6552353B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019012457A (en) * 2017-06-30 2019-01-24 新日鉄住金ソリューションズ株式会社 Information processing device, information processing method, and program
WO2021192050A1 (en) * 2020-03-24 2021-09-30 富士通株式会社 Analysis assistance program, system, and method
JP7386466B1 (en) * 2022-12-20 2023-11-27 株式会社Fronteo Data analysis device and data analysis program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010056682A (en) * 2008-08-26 2010-03-11 National Institute Of Information & Communication Technology E-mail receiver and method of receiving e-mail, e-mail transmitter and e-mail transmission method, mail transmission server
US8676738B2 (en) * 2008-09-03 2014-03-18 Nec Corporation Relationship detector, relationship detection method, and recording medium
JP5565568B2 (en) * 2010-03-30 2014-08-06 日本電気株式会社 Information recommendation device, information recommendation method and program
JP2015032203A (en) * 2013-08-05 2015-02-16 日本電信電話株式会社 Knowledge system creation device, knowledge system creation method and knowledge system creation program

Also Published As

Publication number Publication date
JP2017059077A (en) 2017-03-23

Similar Documents

Publication Publication Date Title
da Silva et al. Using unsupervised information to improve semi-supervised tweet sentiment classification
US9747895B1 (en) Building language models for a user in a social network from linguistic information
US9940307B2 (en) Augmenting text with multimedia assets
KR101348282B1 (en) Method for generating animation from text, Apparatus thereof
JP6429747B2 (en) Information providing apparatus, information providing method, and information providing program
Zhao et al. Contextual self-organizing map: software for constructing semantic representations
JP6552353B2 (en) Information providing apparatus, information providing method, and information providing program
Sandow et al. ‘Doing Cornishness’ in the English periphery: Embodying ideology through Anglo-Cornish dialect lexis
JP6370281B2 (en) Information providing apparatus, information providing method, and information providing program
JP2018084627A (en) Language model learning device and program thereof
Kumar Contextual semantics using hierarchical attention network for sentiment classification in social internet-of-things
Li et al. Data-driven alibi story telling for social believability
Shirsat et al. Sentence level sentiment analysis from news articles and blogs using machine learning techniques
JP6367777B2 (en) Information providing apparatus, information providing method, and information providing program
Lee et al. Speech2Mindmap: testing the accuracy of unsupervised automatic mindmapping technology with speech recognition
JP2018045657A (en) Learning device, program parameter and learning method
KR102072708B1 (en) A method and computer program for inferring genre of a text contents
Kalyani et al. Mood swing analyser: a dynamic sentiment detection approach
JP6680655B2 (en) Learning device and learning method
JP4405542B2 (en) Apparatus, method and program for clustering phoneme models
US9460716B1 (en) Using social networks to improve acoustic models
Chen et al. LED: A dataset for life event extraction from dialogs
JP6843689B2 (en) Devices, programs and methods for generating contextual dialogue scenarios
Franco et al. A Recall Analysis of Core Word Lists over Children's Utterances for Augmentative and Alternative Communication
Dybala et al. Towards joking, humor sense equipped and emotion aware conversational Systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190702

R150 Certificate of patent or registration of utility model

Ref document number: 6552353

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350