JP7139271B2 - Information processing device, information processing method, and program - Google Patents

Information processing device, information processing method, and program Download PDF

Info

Publication number
JP7139271B2
JP7139271B2 JP2019053170A JP2019053170A JP7139271B2 JP 7139271 B2 JP7139271 B2 JP 7139271B2 JP 2019053170 A JP2019053170 A JP 2019053170A JP 2019053170 A JP2019053170 A JP 2019053170A JP 7139271 B2 JP7139271 B2 JP 7139271B2
Authority
JP
Japan
Prior art keywords
character string
score
pattern
character
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019053170A
Other languages
Japanese (ja)
Other versions
JP2020154790A (en
Inventor
俊平 大倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2019053170A priority Critical patent/JP7139271B2/en
Publication of JP2020154790A publication Critical patent/JP2020154790A/en
Application granted granted Critical
Publication of JP7139271B2 publication Critical patent/JP7139271B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。 The present invention relates to an information processing device, an information processing method, and a program.

文章に含まれる固有表現(例えば固有名詞)を特徴量として用いることで、その文章の内容を、機械学習に利用可能な表現に置き換えることが研究されている。これに関連し、入力テキストを、形態素解析によってフレーズに区分し、予め印象要素とそのスコアがフレーズに対応付けられた印象辞書を用いて、入力テキストを区分したフレーズ毎に、印象要素及びスコアを対応付けたフレーズリストを生成し、入力テキストのフレーズ全体から各印象要素の尤度を算出し、当該尤度を、各印象要素のスコアとして対応付けた客観的印象を算出し、主観的印象に基づく当該印象要素のスコアと、客観的印象に基づく該印象要素のスコアとを比較した印象差分情報を算出する技術が知られている(例えば、特許文献1参照)。 Research has been conducted to replace the content of a sentence with an expression that can be used for machine learning by using a specific expression (for example, a proper noun) included in the sentence as a feature amount. In relation to this, the input text is segmented into phrases by morphological analysis, and impression elements and scores are calculated for each phrase segmented from the input text using an impression dictionary in which impression elements and their scores are associated with phrases in advance. Generate a list of associated phrases, calculate the likelihood of each impression element from the entire phrase of the input text, calculate the objective impression by associating the likelihood as a score of each impression element, and convert it to the subjective impression. There is known a technique of calculating impression difference information by comparing a score of an impression element based on an objective impression with a score of the impression element based on an objective impression (for example, see Patent Document 1).

特開2017-84015号公報JP 2017-84015 A

世間では、新語や造語といった今まで使われていなかった新しい言葉が流行する場合がある。例えば、ユニークなタイトルが付けられた新作のコンテンツが公開され、そのコンテンツが人々の間で話題となれば、ユニークなタイトルが新しい言葉として流行することになる。しかしながら、従来の技術では、流行に合わせて辞書を頻繁に更新するのは困難な場合が多く、更には、どのような文章から辞書に登録すべき固有表現を探すべきなのかが十分に検討されていなかった。このようなことから、従来の技術では、文書から固有表現を精度よく抽出できない場合があった。 In the world, new words that have not been used until now, such as neologisms and coined words, may become popular. For example, if new content with a unique title is released and the content becomes a hot topic among people, the unique title will become popular as a new word. However, with conventional techniques, it is often difficult to frequently update dictionaries according to fashion, and furthermore, it is often difficult to find out what kind of sentences should be registered as named entities in dictionaries. was not For this reason, the conventional technology may not be able to accurately extract named entities from documents.

本発明は、上記の課題に鑑みてなされたものであり、文書から精度よく固有表現を抽出することができる情報処理装置、情報処理方法、及びプログラムを提供することを目的としている。 SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and aims to provide an information processing apparatus, an information processing method, and a program capable of extracting a named entity from a document with high accuracy.

本発明の一態様は、文章を、少なくとも一文字以上を含む文字列に分割する分割部と、ユーザによって入力された複数のクエリに基づいて、前記分割部により分割された前記文字列ごとにスコアを算出する算出部と、前記算出部によって算出された前記スコアに基づいて、前記文章から固有表現を抽出する抽出部と、を備える情報処理装である。 One aspect of the present invention includes a dividing unit that divides a sentence into character strings containing at least one character, and a score for each of the character strings divided by the dividing unit based on a plurality of queries input by a user. An information processing device comprising: a calculating unit for calculating; and an extracting unit for extracting a named entity from the sentence based on the score calculated by the calculating unit.

本発明の一態様によれば、文書から精度よく固有表現を抽出することができる。 According to one aspect of the present invention, a named entity can be extracted from a document with high accuracy.

第1実施形態における情報処理装置100を含む情報処理システム1の一例を示す図である。1 is a diagram showing an example of an information processing system 1 including an information processing device 100 according to a first embodiment; FIG. 第1実施形態における情報処理装置100の構成の一例を示す図である。It is a figure showing an example of composition of information processor 100 in a 1st embodiment. 検索ログ132の一例を示す図である。4 is a diagram showing an example of a search log 132; FIG. 第1実施形態における制御部110の一連の処理の流れを示すフローチャートである。4 is a flow chart showing a series of processes of the control unit 110 in the first embodiment; 3文字のテキストから固有表現を抽出する方法を模式的に示す図である。FIG. 4 is a diagram schematically showing a method of extracting a named entity from three-letter text; 3文字のテキストから固有表現を抽出する方法を模式的に示す図である。FIG. 4 is a diagram schematically showing a method of extracting a named entity from three-letter text; 3文字のテキストから固有表現を抽出する方法を模式的に示す図である。FIG. 4 is a diagram schematically showing a method of extracting a named entity from three-letter text; 3文字のテキストから固有表現を抽出する方法を模式的に示す図である。FIG. 4 is a diagram schematically showing a method of extracting a named entity from three-letter text; 4文字のテキストから固有表現を抽出する方法を模式的に示す図である。FIG. 4 is a diagram schematically showing a method of extracting named entities from four-character text; 4文字のテキストから固有表現を抽出する方法を模式的に示す図である。FIG. 4 is a diagram schematically showing a method of extracting named entities from four-character text; 4文字のテキストから固有表現を抽出する方法を模式的に示す図である。FIG. 4 is a diagram schematically showing a method of extracting named entities from four-character text; 4文字のテキストから固有表現を抽出する方法を模式的に示す図である。FIG. 4 is a diagram schematically showing a method of extracting named entities from four-character text; 4文字のテキストから固有表現を抽出する方法を模式的に示す図である。FIG. 4 is a diagram schematically showing a method of extracting named entities from four-character text; 4文字のテキストから固有表現を抽出する方法を模式的に示す図である。FIG. 4 is a diagram schematically showing a method of extracting named entities from four-character text; 4文字のテキストから固有表現を抽出する方法を模式的に示す図である。FIG. 4 is a diagram schematically showing a method of extracting named entities from four-character text; 4文字のテキストから固有表現を抽出する方法を模式的に示す図である。FIG. 4 is a diagram schematically showing a method of extracting named entities from four-character text; スコア算出対象のパターンの決定方法を説明するための図である。FIG. 4 is a diagram for explaining a method of determining a pattern for score calculation; スコア算出対象のパターンの決定方法を説明するための図である。FIG. 4 is a diagram for explaining a method of determining a pattern for score calculation; スコア算出対象のパターンの決定方法を説明するための図である。FIG. 4 is a diagram for explaining a method of determining a pattern for score calculation;

以下、本発明を適用した情報処理装置、情報処理方法、及びプログラムを、図面を参照して説明する。 Hereinafter, an information processing apparatus, an information processing method, and a program to which the present invention is applied will be described with reference to the drawings.

[概要]
情報処理装置は、一以上のプロセッサにより実現される。情報処理装置は、文章を、少なくとも一文字以上を含む文字列に分割し、ユーザによって入力された複数のクエリの履歴である検索ログに基づいて、文字列ごとにスコアを算出する。そして、情報処理装置は、算出したスコアに基づいて、文章から固有表現を抽出する。これによって、文書から精度よく固有表現を抽出することができる。この結果、例えば、文章の内容を的確に表した分散表現を得ることができる。
[Overview]
An information processing device is realized by one or more processors. The information processing device divides a text into character strings each including at least one character, and calculates a score for each character string based on a search log that is a history of multiple queries input by the user. Then, the information processing device extracts a named entity from the sentence based on the calculated score. This makes it possible to extract named entities from documents with high accuracy. As a result, for example, it is possible to obtain a distributed representation that accurately expresses the content of the sentence.

<第1実施形態>
[全体構成]
図1は、第1実施形態における情報処理装置100を含む情報処理システム1の一例を示す図である。第1実施形態における情報処理システム1は、例えば、一つ以上の端末装置10と、サービス提供装置20と、情報処理装置100とを備える。これらの装置のうち一部または全部は、ネットワークNWを介して互いに接続される。なお、これらの装置のうち一部は、仮想的な装置として他の装置に包含されてもよく、例えば、サービス提供装置20の機能の一部または全部が、情報処理装置100の機能によって実現される仮想マシンであってもよいし、これとは反対に、情報処理装置100の機能の一部または全部が、サービス提供装置20の機能によって実現される仮想マシンであってもよい。
<First embodiment>
[overall structure]
FIG. 1 is a diagram showing an example of an information processing system 1 including an information processing device 100 according to the first embodiment. The information processing system 1 according to the first embodiment includes, for example, one or more terminal devices 10, a service providing device 20, and an information processing device 100. FIG. Some or all of these devices are connected to each other via a network NW. Note that some of these devices may be included in other devices as virtual devices. Alternatively, a virtual machine in which some or all of the functions of the information processing apparatus 100 are implemented by the functions of the service providing apparatus 20 may be used.

図1に示す各装置は、ネットワークNWを介して種々の情報を送受信する。ネットワークNWは、例えば、無線基地局、Wi‐Fiアクセスポイント、通信回線、プロバイダ、インターネットなどを含む。なお、図1に示す各装置の全ての組み合わせが相互に通信可能である必要はなく、ネットワークNWは、一部にローカルなネットワークを含んでもよい。 Each device shown in FIG. 1 transmits and receives various information via the network NW. The network NW includes, for example, wireless base stations, Wi-Fi access points, communication lines, providers, the Internet, and the like. Note that not all combinations of the devices shown in FIG. 1 need to be able to communicate with each other, and the network NW may partially include a local network.

端末装置10は、例えば、スマートフォンなどの携帯電話、タブレット端末、各種パーソナルコンピュータなどの、入力装置、表示装置、通信装置、記憶装置、および演算装置を備える端末装置である。通信装置は、NIC(Network Interface Card)などのネットワークカード、無線通信モジュールなどを含む。端末装置10では、ウェブブラウザやアプリケーションプログラムなどのUA(User Agent)が起動し、ユーザの入力に応じたリクエストをサービス提供装置20に送信する。また、UAが起動された端末装置10は、サービス提供装置20から取得した情報に基づいて、表示装置に各種画像を表示させる。 The terminal device 10 is a terminal device including an input device, a display device, a communication device, a storage device, and an arithmetic device, such as a mobile phone such as a smart phone, a tablet terminal, and various personal computers. The communication device includes a network card such as a NIC (Network Interface Card), a wireless communication module, and the like. In the terminal device 10 , a UA (User Agent) such as a web browser or an application program is activated, and a request according to the user's input is sent to the service providing device 20 . Also, the terminal device 10 on which the UA is activated causes the display device to display various images based on the information acquired from the service providing device 20 .

サービス提供装置20は、例えば、UAとして起動されたウェブブラウザからのリクエストに応じてウェブページを端末装置10に提供するウェブサーバである。ウェブページは、例えば、ショッピングサイトやオークションサイト、フリーマーケットサイトといった各種ウェブサイトを構成するウェブページであってよい。また、サービス提供装置20は、検索サイトやSNS(Social Networking Service)、メールサービスなどの各種サービスを提供するウェブページを端末装置10に提供してもよい。また、サービス提供装置20は、UAとして起動されたアプリケーションからのリクエストに応じてコンテンツを端末装置10に提供することで、販売サイトなどの各種ウェブサイトと同様のサービスを提供するアプリケーションサーバであってもよい。 The service providing device 20 is, for example, a web server that provides a web page to the terminal device 10 in response to a request from a web browser activated as a UA. The web pages may be, for example, web pages that constitute various websites such as shopping sites, auction sites, and flea market sites. The service providing apparatus 20 may also provide the terminal apparatus 10 with web pages that provide various services such as search sites, SNS (Social Networking Service), and mail services. Further, the service providing device 20 is an application server that provides the same services as various websites such as a sales site by providing content to the terminal device 10 in response to a request from an application activated as a UA. good too.

情報処理装置100は、サービス提供装置20から検索ログを取得し、その検索ログを用いて、文章から固有表現を抽出する。本実施形態に係る固有表現には、例えば、名詞のような一つの単語(ワード)だけでなく、名詞と名詞とが他の品詞(例えば助詞)で接続された一つの句(フレーズ)や、名詞や動詞、助詞、助動詞などの種々の品詞を含む一つの文(センテンス)が含まれる。すなわち、人間が固有の表現として用いた言葉であれば、どんなに長い文章であっても固有表現となり得る。 The information processing apparatus 100 acquires a search log from the service providing apparatus 20, and uses the search log to extract named entities from sentences. The named entity according to the present embodiment includes, for example, not only one word such as a noun, but also one phrase in which a noun and a noun are connected by another part of speech (for example, a particle), It contains one sentence including various parts of speech such as nouns, verbs, particles, and auxiliary verbs. In other words, any long sentence can be a named entity as long as it is a word used by humans as a unique entity.

[情報処理装置の構成]
図2は、第1実施形態における情報処理装置100の構成の一例を示す図である。図示のように、情報処理装置100は、例えば、通信部102と、制御部110と、記憶部130とを備える。
[Configuration of information processing device]
FIG. 2 is a diagram showing an example of the configuration of the information processing apparatus 100 according to the first embodiment. As illustrated, the information processing apparatus 100 includes, for example, a communication unit 102, a control unit 110, and a storage unit .

通信部102は、例えば、NIC(Network Interface Card)等の通信インターフェースやDMA(Direct Memory Access)コントローラを含む。通信部102は、ネットワークNWを介して、サービス提供装置20や他のウェブサーバと通信する。 The communication unit 102 includes, for example, a communication interface such as a NIC (Network Interface Card) and a DMA (Direct Memory Access) controller. The communication unit 102 communicates with the service providing apparatus 20 and other web servers via the network NW.

制御部110は、例えば、取得部112と、テキスト分割部114と、フレーズスコア算出部116と、固有表現抽出部118とを備える。制御部110の構成要素は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などのプロセッサが記憶部130に格納されたプログラムを実行することにより実現される。また、制御部110の構成要素の一部または全部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)などのハードウェア(回路部;circuitry)により実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。 The control unit 110 includes, for example, an acquisition unit 112, a text division unit 114, a phrase score calculation unit 116, and a named entity extraction unit 118. The components of the control unit 110 are realized by executing a program stored in the storage unit 130 by a processor such as a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit). Some or all of the components of the control unit 110 are implemented by hardware (circuitry) such as LSI (Large Scale Integration), ASIC (Application Specific Integrated Circuit), and FPGA (Field-Programmable Gate Array). may be realized by cooperation of software and hardware.

記憶部130は、例えば、HDD(Hard Disc Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、RAM(Random Access Memory)などにより実現される。記憶部130には、ファームウェアやアプリケーションプログラムなどの各種プログラムの他に、検索ログ132が格納される。 The storage unit 130 is implemented by, for example, a HDD (Hard Disc Drive), flash memory, EEPROM (Electrically Erasable Programmable Read Only Memory), ROM (Read Only Memory), RAM (Random Access Memory), and the like. The storage unit 130 stores a search log 132 in addition to various programs such as firmware and application programs.

図3は、検索ログ132の一例を示す図である。図示の例のように、検索ログ132は、集計した期間ごとに、ユーザが検索エンジンに入力した各クエリや、そのクエリの入力回数などが対応付けられた履歴情報である。入力回数は、例えば、ユニークブラウザクッキー数であってよい。この場合、同じブラウザを介して同じクエリが何度も入力されても、そのクエリの入力回数は1回としてカウントされる。 FIG. 3 is a diagram showing an example of the search log 132. As shown in FIG. As shown in the illustrated example, the search log 132 is historical information in which each query input by the user to the search engine and the number of times the query is input are associated with each aggregated period. The number of inputs may be, for example, the number of unique browser cookies. In this case, even if the same query is input many times via the same browser, the number of input times of the query is counted as one.

[処理フロー]
以下、第1実施形態における制御部110の一連の処理の流れをフローチャートを用いて説明する。図4は、第1実施形態における制御部110の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われてよい。
[Processing flow]
A series of processes performed by the control unit 110 according to the first embodiment will be described below using a flowchart. FIG. 4 is a flow chart showing a series of processes of the control unit 110 in the first embodiment. The processing of this flowchart may be performed repeatedly at a predetermined cycle, for example.

まず、取得部112は、通信部102を介して、サービス提供装置20からコンテンツの一つであるテキストを取得する(S100)。例えば、テキストは、ユーザが検索エンジンを利用して検索可能なテキストであり、具体的には、組織や団体、著名人などが自ら運営主体となっている公式サイトに掲載された記事や、組織や団体、著名人などと関係のない第三者が運営主体となっている一般サイト(非公式サイト)に記載された記事などである。 First, the acquisition unit 112 acquires text, which is one of contents, from the service providing device 20 via the communication unit 102 (S100). For example, text is text that users can search using a search engine. Articles posted on general sites (unofficial sites) operated by third parties unrelated to , organizations, celebrities, etc.

次に、取得部112は、通信部102を介して、サービス提供装置20から検索ログ132を取得する(S102)。例えば、取得部112は、直近の数か月の間にユーザが入力したクエリの履歴を含む検索ログ132を取得する。 Next, the acquisition unit 112 acquires the search log 132 from the service providing device 20 via the communication unit 102 (S102). For example, the acquisition unit 112 acquires the search log 132 including the history of queries input by the user in the last several months.

次に、テキスト分割部114は、取得部112によって取得されたテキストを一つまたは複数のフレーズに分割する(S104)。本実施形態に係るフレーズは、「は」、「が」、「を」といった助詞のように一文字であってもよいし、複数の文字を含む文字列であってもよい。すなわち、本実施形態の説明では、フレーズという用語を、複数の単語の集まりであるという辞書的な意味で使用するのではなく、一つの文字や、一つの単語、一つの句、一つの文といった、もう少し広義な意味で使用する。 Next, the text division unit 114 divides the text acquired by the acquisition unit 112 into one or more phrases (S104). A phrase according to the present embodiment may be a single character such as particles such as "wa", "ga", and "wo", or may be a character string including a plurality of characters. That is, in the description of the present embodiment, the term phrase is not used in the dictionary sense of a group of words, but rather as a single character, a single word, a single phrase, or a single sentence. , used in a slightly broader sense.

例えば、テキスト分割部114は、テキストに含まれる文字数をNとした場合、2の(N-1)乗通りのフレーズの組み合わせのパターンで、テキストを分割する。例えば、テキストは、N=1であれば1通りのパターンで分割され、N=2であれば2通りのパターンで分割され、N=3であれば4通りのパターンで分割され、N=4であれば8通りのパターンで分割される。 For example, if the number of characters included in the text is N, the text dividing unit 114 divides the text according to a combination pattern of 2<(N-1)> phrases. For example, text is split in one pattern if N=1, split in two patterns if N=2, split in four patterns if N=3, and split in four patterns if N=4. If so, it is divided into 8 different patterns.

次に、フレーズスコア算出部116は、検索ログ132に基づいて、テキスト分割部114によって分割されたフレーズごとに、そのフレーズが固有表現であることの確からしさを定量化した指標値(以下、フレーズスコアと称する)を算出する(S106)。例えば、フレーズスコア算出部116は、数式(1)に基づいて、フレーズスコアを算出する。 Next, based on the search log 132, the phrase score calculation unit 116 calculates, for each phrase divided by the text division unit 114, an index value (hereinafter referred to as phrase score) is calculated (S106). For example, the phrase score calculator 116 calculates the phrase score based on Equation (1).

Figure 0007139271000001
Figure 0007139271000001

式中Sは、フレーズスコアを表し、βは、スコア算出対象とするフレーズと一致するクエリの入力回数(そのクエリを使った検索回数)を表し、αは、1よりも大きい実数(例えば10など)を表し、Lは、スコア算出対象とするフレーズの長さ、すなわちフレーズに含まれる文字数を表している。 In the formula, S represents the phrase score, β represents the number of times a query was entered that matches the phrase to be scored (the number of searches using that query), and α is a real number greater than 1 (e.g., 10, etc.). ), and L represents the length of the phrase to be scored, that is, the number of characters included in the phrase.

例えば、スコア算出対象とするフレーズが、検索ログ132に含まれるクエリのいずれかと一致している場合、すなわち、スコア算出対象とするフレーズがクエリとして1回以上入力されている場合、フレーズスコア算出部116は、クエリの入力回数βが多く、且つフレーズ長Lが大きいほど、対象のフレーズのフレーズスコアSを大きくし、クエリの入力回数βが少なく、且つフレーズ長Lが小さいほど、対象のフレーズのフレーズスコアSを小さくする。なお、スコア算出対象とするフレーズが、検索ログ132に含まれるクエリのいずれかと一致しない場合、すなわち、スコア算出対象とするフレーズがクエリとして入力されていない場合、フレーズスコア算出部116は、対象のフレーズのフレーズスコアSを0にする。 For example, if the phrase for score calculation matches any of the queries included in the search log 132, that is, if the phrase for score calculation is input as a query one or more times, the phrase score calculation unit 116 increases the phrase score S of the target phrase as the number of query inputs β and the phrase length L increases; Decrease the phrase score S. Note that if the phrase for score calculation does not match any of the queries included in the search log 132, that is, if the phrase for score calculation is not input as a query, the phrase score calculation unit 116 Set the phrase score S of the phrase to 0.

次に、固有表現抽出部118は、フレーズスコア算出部116によってフレーズごとに算出されたフレーズスコアに基づいて、テキストから固有表現を抽出する(S108)。これによって本フローチャートの処理が終了する。 Next, the named entity extractor 118 extracts named entities from the text based on the phrase score calculated for each phrase by the phrase score calculator 116 (S108). This completes the processing of this flowchart.

図5から図8は、3文字のテキストから固有表現を抽出する方法を模式的に示す図である。これらの図は、「ABC」という3文字のテキストが一つまたは複数のフレーズに分割されていることを模式的に示している。従って、テキストは、4(2)通りのパターンで分割される。 5 to 8 are diagrams schematically showing methods of extracting named entities from three-letter text. These figures schematically show that the three-letter text "ABC" is divided into one or more phrases. Therefore, the text is split in 4 (2 2 ) patterns.

例えば、図5は、「ABC」という一つのテキストを、「A」という一文字だけのフレーズと、「B」という一文字だけのフレーズと、「C」という一文字だけのフレーズとに分割するパターン1を表している。フレーズスコア算出部116は、パターン1の場合、「A」のフレーズについては、フレーズスコアSを算出し、「B」のフレーズについては、フレーズスコアSを算出し、「C」のフレーズについては、フレーズスコアSを算出している。 For example, FIG. 5 shows a pattern 1 that divides one text "ABC" into a one-letter phrase "A", a one-letter phrase "B", and a one-letter phrase "C". represent. In the case of pattern 1, the phrase score calculation unit 116 calculates the phrase score S A for the phrase “A”, the phrase score S B for the phrase “B”, and the phrase score S B for the phrase “C”. calculates the phrase score SC .

図6は、「ABC」という一つのテキストを、「AB」という二文字のフレーズと、「C」という一文字だけのフレーズとに分割するパターン2を表している。フレーズスコア算出部116は、「AB」のフレーズについては、フレーズスコアSABを算出し、「C」のフレーズについては、フレーズスコアSを算出している。 FIG. 6 shows pattern 2 for dividing a single text "ABC" into a two-letter phrase "AB" and a one-letter phrase "C". The phrase score calculator 116 calculates the phrase score S AB for the phrase “AB” and the phrase score SC for the phrase “C”.

図7は、「ABC」という一つのテキストを、「A」という一文字だけのフレーズと、「BC」という二文字のフレーズとに分割するパターン3を表している。フレーズスコア算出部116は、「A」のフレーズについては、フレーズスコアSを算出し、「BC」のフレーズについては、フレーズスコアSBCを算出している。 FIG. 7 shows a pattern 3 in which a single text "ABC" is divided into a one-letter phrase "A" and a two-letter phrase "BC". The phrase score calculator 116 calculates the phrase score S A for the phrase “A” and the phrase score S BC for the phrase “BC”.

図8は、「ABC」という一つのテキストを、そのまま一つのフレーズとするパターン4を表している。フレーズスコア算出部116は、「ABC」のフレーズについて、フレーズスコアSABCを算出している。 FIG. 8 shows a pattern 4 in which one text "ABC" is used as it is as one phrase. The phrase score calculator 116 calculates the phrase score S ABC for the phrase "ABC".

フレーズスコア算出部116は、上記のように各パターンについて個々のフレーズのフレーズスコアSを算出すると、パターンごとにフレーズスコアSの和を算出する。図5に例示するパターン1では、フレーズスコアSの和は、(S+S+S)となり、図6に例示するパターン2では、フレーズスコアSの和は、(SAB+S)となり、図7に例示するパターン3では、フレーズスコアSの和は、(S+SBC)となり、図8に例示するパターン4では、フレーズスコアSの和は、(SABC)となる。 After calculating the phrase score S of each phrase for each pattern as described above, the phrase score calculator 116 calculates the sum of the phrase scores S for each pattern. In the pattern 1 illustrated in FIG. 5, the sum of the phrase scores S is (S A +S B +S C ), and in the pattern 2 illustrated in FIG. 6, the sum of the phrase scores S is (S AB +S C ), In pattern 3 illustrated in FIG. 7, the sum of phrase scores S is (S A +S BC ), and in pattern 4 illustrated in FIG. 8, the sum of phrase scores S is (S ABC ).

固有表現抽出部118は、これら4つのパターンの中から、フレーズスコアSの和が最大となるパターンを選択し、そのパターンが表すフレーズを固有表現として抽出する。例えば、パターン4のフレーズスコアSの和SABCが最大である場合、固有表現抽出部118は、「ABC」という一つのフレーズを固有表現として抽出する。また、例えば、パターン2のフレーズスコアSの和(SAB+S)が最大である場合、固有表現抽出部118は、「AB」というフレーズと「C」というフレーズとをそれぞれ固有表現として抽出する。 The named entity extraction unit 118 selects the pattern that maximizes the sum of the phrase scores S from these four patterns, and extracts the phrase represented by that pattern as a named entity. For example, when the sum S ABC of the phrase scores S of pattern 4 is the maximum, the named entity extraction unit 118 extracts one phrase “ABC” as a named entity. Also, for example, when the sum of the phrase scores S of pattern 2 ( S AB +SC ) is the maximum, the named entity extraction unit 118 extracts the phrase “AB” and the phrase “C” as named entities. .

図9から図16は、4文字のテキストから固有表現を抽出する方法を模式的に示す図である。これらの図は、「ABCD」という4文字のテキストが一つまたは複数のフレーズに分割されていることを模式的に示している。従って、テキストは、8(2)パターンで分割される。 9 to 16 are diagrams schematically showing methods of extracting named entities from four-character text. These figures schematically show that the four-letter text "ABCD" is divided into one or more phrases. Therefore, the text is split in 8 (2 3 ) patterns.

例えば、図9は、「ABCD」という一つのテキストを、一文字ごとのフレーズに分割するパターン1-1を表している。図10は、「ABCD」という一つのテキストを、「A」、「B」、「AB」という3つのフレーズに分割するパターン1-2を表している。図11は、「ABCD」という一つのテキストを、「AB」、「C」、「D」という3つのフレーズに分割するパターン2-1を表している。図12は、「ABCD」という一つのテキストを、「AB」、「CD」という2つのフレーズに分割するパターン2-2を表している。図13は、「ABCD」という一つのテキストを、「A」、「BC」、「D」という3つのフレーズに分割するパターン3-1を表している。図14は、「ABCD」という一つのテキストを、「A」、「BCD」という2つのフレーズに分割するパターン3-2を表している。図15は、「ABCD」という一つのテキストを、「ABC」、「D」という2つのフレーズに分割するパターン4-1を表している。図16は、「ABCD」という一つのテキストを、そのまま一つのフレーズとするパターン4-2を表している。上記同様に、フレーズスコア算出部116は、各パターンについて個々のフレーズのフレーズスコアSを算出すると、パターンごとにフレーズスコアSの和を算出する。そして、固有表現抽出部118は、これら8つのパターンの中から、フレーズスコアSの和が最大となるパターンを選択し、そのパターンが表すフレーズを固有表現として抽出する。 For example, FIG. 9 shows a pattern 1-1 that divides one text "ABCD" into phrases for each character. FIG. 10 shows a pattern 1-2 for dividing one text "ABCD" into three phrases "A", "B" and "AB". FIG. 11 shows a pattern 2-1 for dividing one text "ABCD" into three phrases "AB", "C" and "D". FIG. 12 shows a pattern 2-2 for dividing one text "ABCD" into two phrases "AB" and "CD". FIG. 13 shows a pattern 3-1 for dividing one text "ABCD" into three phrases "A", "BC" and "D". FIG. 14 shows a pattern 3-2 for dividing one text "ABCD" into two phrases "A" and "BCD". FIG. 15 shows a pattern 4-1 for dividing one text "ABCD" into two phrases "ABC" and "D". FIG. 16 shows a pattern 4-2 in which one text "ABCD" is used as it is as one phrase. In the same manner as described above, after calculating the phrase score S of each phrase for each pattern, the phrase score calculator 116 calculates the sum of the phrase scores S for each pattern. Then, the named entity extracting unit 118 selects the pattern that maximizes the sum of the phrase scores S from these eight patterns, and extracts the phrase represented by that pattern as a named entity.

以上説明した第1実施形態によれば、テキストの文字数Nに基づく数の組み合わせのパターンで、そのテキストを一つまたは複数のフレーズに分割し、各パターンにおいて、分割したフレーズごとにフレーズスコアを算出し、パターンごとにフレーズスコアの和を算出し、算出した和が最大となるパターンのフレーズを固有表現として抽出する。これによって、文書から精度よく固有表現を抽出することができる。 According to the first embodiment described above, the text is divided into one or a plurality of phrases according to a number combination pattern based on the number of characters N of the text, and the phrase score is calculated for each divided phrase in each pattern. Then, the sum of phrase scores is calculated for each pattern, and the phrase with the maximum calculated sum is extracted as a named entity. This makes it possible to extract named entities from documents with high accuracy.

従来より、予め固有表現が登録された辞書を用いて、テキストから固有表現を抽出することが行われているが、新語などの固有表現は日々出現しており、頻繁に辞書を更新する必要がある。しかしながら、辞書を日々更新することは現実的に困難である。また、一部のコミュニティで新語として使われ始めたニッチな用語などについては、固有表現として辞書に登録されにくい。 Traditionally, named entities have been extracted from text using dictionaries in which named entities have been registered in advance. be. However, it is practically difficult to update the dictionary on a daily basis. In addition, niche terms that have begun to be used as new words in some communities are difficult to register as named entities in dictionaries.

そのため、例えば、新作コンテンツのタイトルが「〇〇〇公式ガイドブック・◇◇から△△までの歩き方」のような一文であり、このタイトルを含むテキストに辞書を適用して固有表現を抽出する場合、「〇〇〇」、「公式」、「ガイドブック」、「◇◇」、「△△」、「歩き方」のような複数の単語が固有表現として抽出され、本来抽出すべき「〇〇〇公式ガイドブック・◇◇から△△までの歩き方」という一文が固有表現として抽出されないことになる。 Therefore, for example, if the title of the new content is a sentence such as "Official guidebook for XX, how to walk from ◇◇ to △△", a dictionary is applied to the text containing this title to extract the named entity. In this case, multiple words such as ``○○○'', ``official'', ``guidebook'', ``◇◇'', ``△△'', and ``way of walking'' are extracted as named entities, and instead of extracting ``○ 〇〇Official guidebook ・How to walk from ◇◇ to △△” will not be extracted as a named entity.

一方で、クエリという性質について考えた場合、ある新作コンテンツのタイトルが文のように長いタイトルであれば、ユーザは、公式サイトや第三者のウェブサイトなどからタイトルを表す文字列をコピーし、検索サイトの入力欄に、コピーした文字列を張り付けることが想定される。この場合、固有表現であるコンテンツのタイトルと一語一句同じクエリが検索ログ132として収集されることになる。特に、直近数か月のようなごく最近の検索ログ132には、今現在流行しているような新語などがクエリとして含まれやすい。そのため、本実施形態では、テキストを分割したフレーズと検索ログ132のクエリとを比較することで、固有表現が長くても、或いは真新しい固有表現であっても、テキストから精度よく固有表現を抽出することができる。 On the other hand, considering the nature of the query, if the title of some new content is a long title like a sentence, the user will copy the character string representing the title from the official website or a third-party website, etc. It is assumed that the copied character string is pasted in the input field of the search site. In this case, queries that are the same word for word as the title of the content, which is the named entity, are collected as the search log 132 . In particular, a very recent search log 132, such as the last few months, is likely to include new words that are currently popular as queries. Therefore, in this embodiment, by comparing the phrases obtained by dividing the text with the query in the search log 132, the named entity can be accurately extracted from the text even if the named entity is long or brand new. be able to.

また、括弧やアポストロフィ、プライムといった約物(記述記号)によって囲まれたテキストの一部を、固有表現として抽出することも考えられる。しかしながら、この手法では、人物の台詞や引用文などを固有表現として抽出する場合があり、それが一つの名詞として使用されている固有表現なのか、単に台詞や引用文なのかを区別することができない。また、コンテンツのキャラクター名や人名などは固有表現であるものの、通常括弧などで囲まれていないことから、テキストから抽出することができない。 It is also conceivable to extract a part of text surrounded by punctuation marks (descriptive symbols) such as brackets, apostrophes, and primes as named entities. However, in this method, there are cases where a person's dialogue or quoted sentence is extracted as a named entity, and it is not possible to distinguish whether it is a named entity used as a noun or simply a dialogue or quoted sentence. Can not. In addition, although character names and personal names in content are named entities, they cannot be extracted from text because they are not usually enclosed in parentheses.

これに対して、本実施形態では、約物に依らずに固有表現を抽出することができる。また、映画や書籍のタイトルには、しばしば副題が付けられており、その副題が約物によって囲まれている場合がある。仮に固有表現が約物で囲まれていたとしても、ユーザが約物で囲まれた固有表現をクエリとして入力していれば、本実施形態の手法によって、その約物を含む固有表現も抽出することができる。 On the other hand, in the present embodiment, it is possible to extract named entities without relying on punctuation. In addition, movie and book titles often have subtitles, and the subtitles may be surrounded by punctuation marks. Even if a named entity is surrounded by punctuation, if the user inputs a named entity surrounded by punctuation as a query, the method of the present embodiment also extracts named entities that include the punctuation. be able to.

また、単にテキストのフレーズと検索ログ132のクエリとを比較した場合、テキストには、「は」、「を」、「です」、「ます」といった比較的短いフレーズが出現しやすいため、それらのフレーズがクエリと偶然に一致し、フレーズスコアSが大きくなる傾向となる。これに対して、本実施形態では、指数をフレーズ長Lとした任意の基数αと入力回数βとの積をフレーズスコアSとするため、入力回数βが少ないフレーズであっても、フレーズ長Lが大きければフレーズスコアSを大きくし、入力回数βが多いフレーズであっても、フレーズ長Lが小さければフレーズスコアSを低くすることができる。この結果、助詞などを固有表現として抽出することを抑制しつつ、複数の名詞が助詞などで接続された句や文を一つの固有表現として精度よく抽出することができる。 In addition, when simply comparing the phrases of the text with the queries in the search log 132, relatively short phrases such as "wa", "o", "desu", and "masu" tend to appear in the text. Phrase coincidentally matches the query, and the phrase score S tends to be large. On the other hand, in the present embodiment, the phrase score S is the product of the number of inputs β and an arbitrary cardinal number α, where the exponent is the phrase length L. is large, the phrase score S is increased, and even for a phrase with a large number of inputs β, the phrase score S can be decreased if the phrase length L is small. As a result, it is possible to accurately extract phrases and sentences in which a plurality of nouns are connected by particles and the like as a single named entity while suppressing the extraction of particles and the like as named entities.

<第2実施形態>
以下、第2実施形態について説明する。上述した第1実施形態では、フレーズの組み合わせである全パターンについてフレーズスコアの和を算出し、その和が最大となるパターンのフレーズを固有表現として抽出するものとして説明した。これに対して、第2実施形態では、全パターンについてフレーズスコアの和を算出するのではなく、検証すべきパターンを合理的に決定した上でフレーズスコアの和を算出する点で上述した第1実施形態と相違する。以下、第1実施形態との相違点を中心に説明し、第1実施形態と共通する点については説明を省略する。なお、第2実施形態の説明において、第1実施形態と同じ部分については同一符号を付して説明する。
<Second embodiment>
A second embodiment will be described below. In the above-described first embodiment, the sum of phrase scores is calculated for all patterns that are combinations of phrases, and the phrase with the maximum sum is extracted as a unique expression. In contrast, in the second embodiment, instead of calculating the sum of phrase scores for all patterns, the sum of phrase scores is calculated after rationally determining patterns to be verified. It differs from the embodiment. In the following, differences from the first embodiment will be mainly described, and descriptions of common points with the first embodiment will be omitted. In addition, in description of 2nd Embodiment, the same code|symbol is attached|subjected and demonstrated about the same part as 1st Embodiment.

図17から図19は、スコア算出対象のパターンの決定方法を説明するための図である。例えば、「ABCD」という4文字のテキストが与えられた場合、第2実施形態に係るテキスト分割部114は、図17に例示するように、テキストの先頭の第1文字「A」とそれに続く第2文字「B」との間を分割し、「A」というフレーズと「B」というフレーズとを生成するとともに、これらの文字の間を分割せず、「AB」という2文字のフレーズを生成する。第2実施形態に係るフレーズスコア算出部116は、検索ログ132を用いて、フレーズ「A」のフレーズスコアSとフレーズ「B」のフレーズスコアSとの和(S+S)を算出するとともに、フレーズ「AB」のフレーズスコアSABを算出する。テキスト分割部114は、これらを比較し、よりスコアが小さい方のパターンから派生したパターンを、次に検証するパターン候補から消去する。第1文字「A」は、「第1文字列」の一例であり、第2文字「B」は、「第2文字列」の一例であり、フレーズ「AB」は、「第3文字列」の一例である。 17 to 19 are diagrams for explaining a method of determining patterns for score calculation. For example, when a four-character text "ABCD" is given, the text dividing unit 114 according to the second embodiment divides the first character "A" at the beginning of the text, followed by the second character "A", as illustrated in FIG. Split between the two letters 'B' to generate the phrase 'A' and the phrase 'B', and do not split between these letters to generate the two letter phrase 'AB'. . The phrase score calculation unit 116 according to the second embodiment uses the search log 132 to calculate the sum (S A +S B ) of the phrase score S A of the phrase “A” and the phrase score S B of the phrase “B”. At the same time, the phrase score SAB of the phrase " AB " is calculated. The text dividing unit 114 compares these and eliminates the pattern derived from the pattern with the smaller score from the pattern candidates to be verified next. The first character 'A' is an example of a 'first character string', the second character 'B' is an example of a 'second character string', and the phrase 'AB' is an example of a 'third character string'. is an example.

図17の例では、(S+S)よりもSABの方が大きい。この場合、第2文字に続く第3文字「C」を含めたフレーズの組み合わせのパターンは、上述したパターン1とパターン2とパターン3とパターン4の計4種類となる。これらの4種類のパターンのうち、少なくともパターン1とパターン2とは、第3文字「C」を含める以前の結果と同じになる。例えば、パターン1のフレーズスコアの和は(S+S+S)であり、パターン2のフレーズスコアの和は(SAB+S)であることから、前回が(S+S)よりもSABの方が大きいという結果であれば、パターン1およびパターン2のフレーズスコアの和の大小関係は変化しない。従って、フレーズスコア算出部116は、テキストの先頭の第1文字「A」とそれに続く第2文字「B」との間を分割するというパターン1についてはスコアを算出しない。 In the example of FIG. 17, S AB is larger than (S A +S B ). In this case, there are four types of combinations of phrases including the third character "C" following the second character: pattern 1, pattern 2, pattern 3, and pattern 4 described above. Of these four patterns, at least pattern 1 and pattern 2 are the same as before the inclusion of the third character "C". For example, the sum of the phrase scores for pattern 1 is (S A + S B + S C ), and the sum of the phrase scores for pattern 2 is (S AB + S C ). If the result is that SAB is larger, the magnitude relation of the sum of the phrase scores of pattern 1 and pattern 2 does not change. Therefore, the phrase score calculation unit 116 does not calculate the score for pattern 1, which divides the text between the first character "A" at the beginning of the text and the second character "B" following it.

次に、テキスト分割部114は、図18に例示するように、残された3種類のパターン3のスコアを比較する。図18の例では、パターン4のフレーズスコアSABCが最も大きい。従って、フレーズスコア算出部116は、テキストの先頭の一文字「A」とそれに続く三文字の組み合わせ「BCD」との間を分割するパターン3-1と、テキストの先頭の二文字の組み合わせ「AB」とそれに続く二文字の組み合わせ「CD」との間を分割するパターン2-2と、テキストの先頭の三文字の組み合わせ「ABC」とそれに続く一文字「D」との間を分割するパターン4-1と、テキストを分割せず一つのフレーズとするパターン4-2の合計4パターンについてのみスコアを算出する。このように、本手法では、文字列の最後のk文字目について検討するときには、k個のパターンを比較する。 Next, the text dividing unit 114 compares the scores of the remaining three patterns 3, as illustrated in FIG. In the example of FIG. 18, pattern 4 has the highest phrase score S ABC . Therefore, the phrase score calculation unit 116 determines the pattern 3-1 that divides the first letter "A" of the text and the following three-letter combination "BCD" and the first two-letter combination "AB" of the text. and the following two-letter combination "CD", and pattern 4-1 splitting between the first three-letter combination "ABC" of the text followed by the single letter "D". , the score is calculated only for a total of 4 patterns, pattern 4-2, in which the text is not divided into a single phrase. Thus, in our method, when considering the last k-th character of a string, we compare k patterns.

次に、フレーズスコア算出部116は、上記の4パターン(3-1、2-2、4-1、-2)のそれぞれのフレーズスコアの和を算出する。例えば、パターン4-1のフレーズスコアの和(SABCD+S)が最も大きい場合、固有表現抽出部118は、「ABC」というフレーズと「D」というフレーズとをそれぞれ固有表現として抽出する。このように、テキストの先頭の文字から順番に組み合わせていき、各組み合わせの候補をスコアの大きさに応じて、その組み合わせのパターンを取捨選択することで、最適な組み合わせを探索することができる。 Next, the phrase score calculator 116 calculates the sum of the phrase scores of the four patterns (3-1, 2-2, 4-1, -2). For example, when the sum (S ABCD +S D ) of the phrase score of pattern 4-1 is the largest, the named entity extraction unit 118 extracts the phrase "ABC" and the phrase "D" as named entities. In this way, the characters are sequentially combined from the first character of the text, and the combination pattern is selected according to the score of each combination candidate, whereby the optimum combination can be searched for.

なお、あるパターンのフレーズスコアが0となった場合、そのパターンに一文字追加した派生パターンについては、以後考慮しなくてもよい。フレーズスコアが0ということは、そのフレーズと一致するクエリの入力回数βが0であることを意味する。すなわち、どのユーザも、そのパターンによって表されるフレーズをクエリとして入力したことがないことを意味しており、そのパターンのフレーズが固有表現であるという蓋然性が極めて低いことを表している。 Note that when the phrase score of a certain pattern is 0, derived patterns obtained by adding one character to that pattern need not be taken into consideration thereafter. A phrase score of 0 means that the number of input times β of queries that match the phrase is zero. In other words, it means that no user has ever input the phrase represented by the pattern as a query, and the probability that the phrase of the pattern is a named entity is extremely low.

以上説明した第2実施形態によれば、テキストの先頭の文字から順番に組み合わせていき、その時点で各パターンのフレーズスコアを比較し、フレーズスコアがより小さいパターンを以降の処理対象から除外する。 According to the second embodiment described above, the characters are combined in order from the beginning of the text, the phrase score of each pattern is compared at that point, and the pattern with the smaller phrase score is excluded from subsequent processing.

例えば、映画やドラマ、アニメといったコンテンツには、ある単語Aと、ある単語Bとの間に「の」や「と」といった助詞などを挟んだ固有名詞をタイトルとしているものがある。具体的には、「〇〇と□□」や「〇〇の△△」といったタイトルである。このようなコンテンツのタイトルを、全パターンについてフレーズスコアを求めた場合、「の」や「と」のような助詞が名詞の先頭に出現するようなフレーズについてもスコアを算出することになる。しかしながら、現実世界では、フレーズの冒頭に助詞が出現することは極めて稀であり、そのフレーズそのものが世に存在していないと見做すことができる。従って、テキストの先頭の文字から順番に組み合わせていき、その時点で各パターンのフレーズスコアを比較し、フレーズスコアがより小さいパターンを以降の処理対象から除外することで、効率よく固有名詞を抽出することができる。 For example, in content such as movies, dramas, and animations, some titles are proper nouns in which particles such as "no" and "to" are sandwiched between a certain word A and a certain word B. Specifically, the titles are "XX and □□" and "XX's △△". When the phrase score is obtained for all patterns of such content titles, the score is calculated for phrases in which particles such as "no" and "to" appear at the beginning of nouns. However, in the real world, it is extremely rare for a particle to appear at the beginning of a phrase, and it can be assumed that the phrase itself does not exist in the world. Therefore, by combining the characters in order from the beginning of the text, comparing the phrase scores of each pattern at that point, and excluding patterns with lower phrase scores from subsequent processing, we can efficiently extract proper nouns. be able to.

上述した第1実施形態のように、全パターンの区切り方を試した場合、テキストに含まれる文字数をNとすれば、2N-1のようにスコアの算出回数が増加する。これに対して、第2実施形態では、文字の連続性を考慮して、パターン数を減らすため、スコアの算出回数をN回に抑えることができる。 As in the first embodiment described above, when all patterns are divided, the number of score calculations increases to 2 N−1 , where N is the number of characters included in the text. On the other hand, in the second embodiment, since the number of patterns is reduced in consideration of the continuity of characters, the number of score calculations can be suppressed to N2 times.

<ハードウェア構成>
上述した実施形態の情報処理装置100は、例えば、図19に示すようなハードウェア構成により実現される。図19は、実施形態の情報処理装置100のハードウェア構成の一例を示す図である。
<Hardware configuration>
The information processing apparatus 100 of the embodiment described above is realized by, for example, a hardware configuration as shown in FIG. 19 . FIG. 19 is a diagram illustrating an example of the hardware configuration of the information processing apparatus 100 according to the embodiment.

情報処理装置100は、NIC100-1、CPU100-2、RAM100-3、ROM100-4、フラッシュメモリやHDDなどの二次記憶装置100-5、およびドライブ装置100-6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置100-6には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置100-5、またはドライブ装置100-6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM100-3に展開され、CPU100-2によって実行されることで、制御部110が実現される。制御部110が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。 Information processing apparatus 100 includes NIC 100-1, CPU 100-2, RAM 100-3, ROM 100-4, secondary storage device 100-5 such as flash memory and HDD, and drive device 100-6 connected to an internal bus or dedicated communication line. are interconnected by A portable storage medium such as an optical disc is mounted in the drive device 100-6. A program stored in the secondary storage device 100-5 or a portable storage medium attached to the drive device 100-6 is developed in the RAM 100-3 by a DMA controller (not shown) or the like, and executed by the CPU 100-2. Thus, the control unit 110 is realized. The program referred to by control unit 110 may be downloaded from another device via network NW.

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 As described above, the mode for carrying out the present invention has been described using the embodiments, but the present invention is not limited to such embodiments at all, and various modifications and replacements can be made without departing from the scope of the present invention. can be added.

1…情報処理システム、10…端末装置、20…サービス提供装置、100…情報処理装置、102…通信部、110…制御部、112…取得部、114…テキスト分割部、116…フレーズスコア算出部、118…固有表現抽出部、130…記憶部 Reference Signs List 1 information processing system 10 terminal device 20 service providing device 100 information processing device 102 communication unit 110 control unit 112 acquisition unit 114 text division unit 116 phrase score calculation unit , 118... Named entity extraction unit, 130... Storage unit

Claims (5)

文章に含まれる文字数に応じた数のパターンで、前記文章を少なくとも一文字以上を含む文字列に分割する分割部と、
ユーザによって入力された複数のクエリに基づいて、前記パターンごとに、前記分割部により前記文章から分割された各文字列のスコアを算出し、前記パターンごとに前記文字列の全てのスコアの和を算出する算出部と、
前記文字数に応じた数のパターンの中から、前記算出部によって算出された前記スコアの和が最大となるパターンを選択し、前記スコアの和が最大となるパターンにおける前記文字列を固有表現として抽出する抽出部と、を備え、
前記算出部は、入力回数が少ない前記クエリと一致する前記文字列であっても、前記文字列の長さが大きければ前記スコアを大きくし、前記入力回数が多い前記クエリと一致する前記文字列であっても、前記文字列の長さが小さければ前記スコアを小さくする、
報処理装置。
a dividing unit that divides the text into character strings each including at least one character in a number of patterns corresponding to the number of characters included in the text ;
Based on a plurality of queries input by the user, for each pattern, calculate the score of each character string divided from the sentence by the dividing unit, and calculate the sum of all the scores of the character strings for each pattern. a calculating unit that calculates;
A pattern that maximizes the sum of the scores calculated by the calculator is selected from the patterns corresponding to the number of characters, and the character string in the pattern that maximizes the sum of the scores is extracted as a unique expression. and an extractor for
The calculation unit increases the score if the length of the character string is large even for the character string that matches the query with a small number of inputs, and the character string that matches the query with a large number of inputs. reduce the score if the length of the string is small, even if
Information processing equipment.
前記算出部は、前記文字列と一致する前記クエリの入力回数と、前記文字列の長さとに基づいて、前記スコアを算出する、
請求項1に記載の情報処理装置。
The calculation unit calculates the score based on the number of times the query is input that matches the character string and the length of the character string.
The information processing device according to claim 1 .
前記分割部は、前記文章を第1位置で分割し、
前記算出部は、前記第1位置の直前に出現する、少なくとも一文字以上を含む第1文字列のスコアと、前記第1位置の直後に出現する、少なくとも一文字以上を含む第2文字列のスコアと、前記第1文字列および前記第2文字列を組み合わせた第3文字列のスコアとを算出し、
前記抽出部は、前記第1文字列のスコアと前記第2文字列のスコアとの和と、前記第3文字列のスコアとを比較し、よりスコアが小さい方の文字列を、前記固有表現の抽出対象から除外する、
請求項1又は2に記載の情報処理装置。
The dividing unit divides the sentence at a first position,
The calculation unit calculates a score of a first character string containing at least one character appearing immediately before the first position and a score of a second character string containing at least one character appearing immediately after the first position. , calculating a score of a third character string that combines the first character string and the second character string,
The extraction unit compares the sum of the score of the first character string and the score of the second character string with the score of the third character string, and selects the character string with the smaller score as the unique expression Exclude from the extraction target of
The information processing apparatus according to claim 1 or 2 .
コンピュータが、
文章に含まれる文字数に応じた数のパターンで、前記文章を少なくとも一文字以上を含む文字列に分割し、
ユーザによって入力された複数のクエリに基づいて、前記パターンごとに、前記文章から分割した各文字列のスコアを算出し、
前記パターンごとに前記文字列の全てのスコアの和を算出し、
前記文字数に応じた数のパターンの中から、前記算出したスコアの和が最大となるパターンを選択し、
前記スコアの和が最大となるパターンにおける前記文字列を固有表現として抽出
入力回数が少ない前記クエリと一致する前記文字列であっても、前記文字列の長さが大きければ前記スコアを大きくし、
前記入力回数が多い前記クエリと一致する前記文字列であっても、前記文字列の長さが小さければ前記スコアを小さくする、
情報処理方法。
the computer
dividing the text into character strings containing at least one character in a number of patterns corresponding to the number of characters included in the text ;
Based on a plurality of queries input by the user, for each pattern, calculate the score of each character string divided from the sentence ,
calculating the sum of all the scores of the character strings for each of the patterns;
Selecting a pattern that maximizes the sum of the calculated scores from the number of patterns corresponding to the number of characters ,
extracting the character string in the pattern that maximizes the sum of the scores as a named entity ;
Even if the character string matches the query with a small number of inputs, if the length of the character string is large, the score is increased,
Even if the character string matches the query with a large number of inputs, if the length of the character string is small, the score is reduced.
Information processing methods.
コンピュータに、
文章に含まれる文字数に応じた数のパターンで、前記文章を少なくとも一文字以上を含む文字列に分割する処理と、
ユーザによって入力された複数のクエリに基づいて、前記パターンごとに、前記文章から分割した各文字列のスコアを算出する処理と、
前記パターンごとに前記文字列の全てのスコアの和を算出する処理と、
前記文字数に応じた数のパターンの中から、前記算出したスコアの和が最大となるパターンを選択する処理と、
前記スコアの和が最大となるパターンにおける前記文字列を固有表現として抽出する処理と、
入力回数が少ない前記クエリと一致する前記文字列であっても、前記文字列の長さが大きければ前記スコアを大きくする処理と、
前記入力回数が多い前記クエリと一致する前記文字列であっても、前記文字列の長さが小さければ前記スコアを小さくする処理と、
を実行させるためのプログラム。
to the computer,
A process of dividing the text into character strings containing at least one character in a number of patterns corresponding to the number of characters included in the text ;
A process of calculating the score of each character string divided from the sentence for each pattern based on a plurality of queries input by the user;
A process of calculating the sum of all the scores of the character strings for each of the patterns;
A process of selecting a pattern that maximizes the sum of the calculated scores from the number of patterns corresponding to the number of characters ;
A process of extracting the character string in the pattern that maximizes the sum of the scores as a named entity;
A process of increasing the score if the length of the character string is large even for the character string that matches the query with a small number of inputs;
A process of reducing the score if the length of the character string is small even for the character string that matches the query with the large number of inputs;
program to run the
JP2019053170A 2019-03-20 2019-03-20 Information processing device, information processing method, and program Active JP7139271B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019053170A JP7139271B2 (en) 2019-03-20 2019-03-20 Information processing device, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019053170A JP7139271B2 (en) 2019-03-20 2019-03-20 Information processing device, information processing method, and program

Publications (2)

Publication Number Publication Date
JP2020154790A JP2020154790A (en) 2020-09-24
JP7139271B2 true JP7139271B2 (en) 2022-09-20

Family

ID=72559218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019053170A Active JP7139271B2 (en) 2019-03-20 2019-03-20 Information processing device, information processing method, and program

Country Status (1)

Country Link
JP (1) JP7139271B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3880087B2 (en) 1995-11-28 2007-02-14 富士通株式会社 Morphological analyzer
US20100180199A1 (en) 2007-06-01 2010-07-15 Google Inc. Detecting name entities and new words
JP2013134625A (en) 2011-12-26 2013-07-08 Fujitsu Ltd Extraction device, extraction program and extraction method
JP2016110441A (en) 2014-12-08 2016-06-20 日本電信電話株式会社 Term extraction device, method and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3880087B2 (en) 1995-11-28 2007-02-14 富士通株式会社 Morphological analyzer
US20100180199A1 (en) 2007-06-01 2010-07-15 Google Inc. Detecting name entities and new words
JP2013134625A (en) 2011-12-26 2013-07-08 Fujitsu Ltd Extraction device, extraction program and extraction method
JP2016110441A (en) 2014-12-08 2016-06-20 日本電信電話株式会社 Term extraction device, method and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沢井 康孝,Web検索を用いた複合名詞同定,言語処理学会第14回年次大会発表論文集,言語処理学会,2008年03月17日,pp.205~208

Also Published As

Publication number Publication date
JP2020154790A (en) 2020-09-24

Similar Documents

Publication Publication Date Title
KR101465770B1 (en) Word probability determination
CN104899322B (en) Search engine and implementation method thereof
US7983902B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
US8612206B2 (en) Transliterating semitic languages including diacritics
US20170185581A1 (en) Systems and methods for suggesting emoji
US8412517B2 (en) Dictionary word and phrase determination
JP3820242B2 (en) Question answer type document search system and question answer type document search program
JP5379138B2 (en) Creating an area dictionary
US9767183B2 (en) Method and system for enhanced query term suggestion
US20110040769A1 (en) Query-URL N-Gram Features in Web Ranking
JP5710581B2 (en) Question answering apparatus, method, and program
WO2011111038A2 (en) Method and system of providing completion suggestion to a partial linguistic element
KR20220021360A (en) Method and system for training document-level natural language processing models
CN101308512B (en) Mutual translation pair extraction method and device based on web page
Wiegand et al. Non-syntactic word prediction for AAC
Ghosh et al. A rule based extractive text summarization technique for Bangla news documents
JP2019109654A (en) Similar text extraction device, automatic response system, similar text extraction method, and program
JP7139271B2 (en) Information processing device, information processing method, and program
JP2017091436A (en) Feature word selection device
US20180005300A1 (en) Information presentation device, information presentation method, and computer program product
CN114255067A (en) Data pricing method and device, electronic equipment and storage medium
JP6235386B2 (en) Information presenting apparatus, information presenting method, and program
JP7326637B2 (en) CHUNKING EXECUTION SYSTEM, CHUNKING EXECUTION METHOD, AND PROGRAM
JP4281899B2 (en) Question document summarizing device, question answering search device, question document summarizing program
CN110851560A (en) Information retrieval method, device and equipment

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220907

R150 Certificate of patent or registration of utility model

Ref document number: 7139271

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350