JP7553314B2 - Estimation device, estimation method, and program - Google Patents
Estimation device, estimation method, and program Download PDFInfo
- Publication number
- JP7553314B2 JP7553314B2 JP2020172682A JP2020172682A JP7553314B2 JP 7553314 B2 JP7553314 B2 JP 7553314B2 JP 2020172682 A JP2020172682 A JP 2020172682A JP 2020172682 A JP2020172682 A JP 2020172682A JP 7553314 B2 JP7553314 B2 JP 7553314B2
- Authority
- JP
- Japan
- Prior art keywords
- grams
- similarity
- adjacent
- gram
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 35
- 238000001514 detection method Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000002776 aggregation Effects 0.000 description 6
- 238000004220 aggregation Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、推定装置、推定方法及びプログラムに関する。 The present invention relates to an estimation device, an estimation method, and a program.
現在、研究者が自由に論文を投稿することが可能なサービスが提供されている。研究者は、投稿された論文を自由に閲覧することができ、自身の研究に利用することができる。特許文献1には、ユーザが収集した論文に基づいて、研究に関するユーザの興味を特定することが可能な技術が開示されている。
Currently, there are services that allow researchers to freely post papers. Researchers can freely view the posted papers and use them in their own research.
投稿される論文の数は膨大であることから、注目されている最新技術をキャッチアップするために、ユーザが全ての論文を確認することは現実的ではない。そこで、最新技術に用いられる技術ワードを用いて論文を検索することで、確認する論文数を絞ることが考えられる。しかしながら、最新技術に用いられる技術ワードは辞書に掲載されておらず、かつユーザ自身も知らないことが多いため、技術ワードで論文を絞ること自体が困難である。なお、このような課題は、論文に限られず、書籍やオンライン文書等のあらゆる文章にも生じ得る。 Because the number of submitted papers is enormous, it is not realistic for users to check all of the papers in order to catch up on the latest technologies that are attracting attention. Therefore, it is possible to narrow down the number of papers to be checked by searching for papers using technical words used in the latest technologies. However, since the technical words used in the latest technologies are not listed in dictionaries and users themselves are often not familiar with them, narrowing down the papers using technical words is difficult in itself. Note that this issue is not limited to papers, but can occur with any type of text, such as books or online documents.
そこで、本発明は、複数の文章を分析することで、複数の文章で用いられる特定の用語を、辞書を利用することなく抽出することを可能とする技術を提供することを目的とする。 The present invention aims to provide a technology that can extract specific terms used in multiple sentences by analyzing multiple sentences without using a dictionary.
本発明の一態様に係る推定装置は、複数の文章の入力を受け付ける受付部と、複数の文章に含まれる、連続する複数の単語を含む単語群からNグラムを生成する生成部と、生成されたNグラムのうち隣接する2つのNグラム間の類似度を評価することで、複数の文章で用いられる特定の用語を推定する推定部と、を有する。 The estimation device according to one aspect of the present invention includes a receiving unit that receives input of a plurality of sentences, a generating unit that generates N-grams from a word group including a plurality of consecutive words contained in the plurality of sentences, and an estimating unit that estimates a specific term used in the plurality of sentences by evaluating the similarity between two adjacent N-grams among the generated N-grams.
本発明によれば、複数の文章を分析することで、複数の文章で用いられる特定の用語を、辞書を利用することなく抽出することを可能とする技術を提供することができる。 The present invention provides a technology that can analyze multiple sentences and extract specific terms used in multiple sentences without using a dictionary.
添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。 The following describes an embodiment of the present invention with reference to the attached drawings. In each drawing, the same reference numerals denote the same or similar configurations.
<システム構成>
図1は、文書分析システム1の一例を示す図である。文書分析システム1は、分析装置10と端末20とを含む。文書分析システム1に含まれる端末20の数には制限はない。分析装置10と端末20は、無線又は有線の通信ネットワークNを介して接続され、相互に通信を行うことができる。
<System Configuration>
1 is a diagram showing an example of a
分析装置10は、インターネット等に公開されている多数の論文を分析することで、辞書を用いることなく、論文の中で用いられている技術ワード(特定の用語)を推定する。また、分析装置10は、推定した技術ワードが論文の中で使用される頻度の推移に基づいて、最新技術の流行の兆しを検出する。
The
分析装置10は、1又は複数の物理的なサーバ等から構成されていてもよいし、ハイパーバイザー(hypervisor)上で動作する仮想的なサーバを用いて構成されていてもよいし、クラウドサーバを用いて構成されていてもよい。
The
端末20は、分析装置10による推定結果を表示する装置である。端末20は、例えば、分析装置10により推定された最新の技術ワードが論文の中で使用されている頻度の推移を時系列で示したグラフ等を表示する。端末20は、パーソナルコンピュータ(PC)、ノートPC、スマートフォン、タブレット端末、携帯電話機、携帯情報端末(PDA)等である。
The
<ハードウェア構成>
図2は、分析装置10及び端末20のハードウェア構成例を示す図である。分析装置10及び端末20は、CPU(Central Processing Unit)、GPU(Graphical processing unit)等のプロセッサ11、メモリ、HDD(Hard Disk Drive)及び/又はSSD(Solid State Drive)等の記憶装置12、有線又は無線通信を行う通信IF(Interface)13、入力操作を受け付ける入力デバイス14、及び情報の出力を行う出力デバイス15を有する。入力デバイス14は、例えば、キーボード、タッチパネル、マウス及び/又はマイク等である。出力デバイス15は、例えば、ディスプレイ、タッチパネル及び/又はスピーカ等である。
<Hardware Configuration>
2 is a diagram showing an example of the hardware configuration of the
<機能ブロック構成>
図3は、分析装置10の機能ブロック構成例を示す図である。分析装置10は、記憶部100と、受付部101と、生成部102と、推定部103と、集計部104と、検出部105と、学習部106とを含む。記憶部100は、分析装置10が備える記憶装置12を用いて実現することができる。また、受付部101と、生成部102と、推定部103と、集計部104と、検出部105と、学習部106とは、分析装置10のプロセッサ11が、記憶装置12に記憶されたプログラムを実行することにより実現することができる。また、当該プログラムは、記憶媒体に格納することができる。当該プログラムを格納した記憶媒体は、コンピュータ読み取り可能な非一時的な記憶媒体(Non-transitory computer readable medium)であってもよい。非一時的な記憶媒体は特に限定されないが、例えば、USBメモリ又はCD-ROM等の記憶媒体であってもよい。
<Function block configuration>
FIG. 3 is a diagram showing an example of a functional block configuration of the
記憶部100は、論文DB110と、技術ワードの推定に用いられる技術ワード推定用モデルM110と、類似する技術ワードをグルーピングする際に用いられるグループ推定用モデルM120とを記憶する。論文DB110は、例えば、インターネット等から取得した論文データを格納するデータベースである。なお、論文DB110は、分析装置10が備える記憶装置12に格納されていてもよいし、分析装置10と通信可能な外部装置に格納されていてもよい。
The
受付部101は、分析対象となる複数の論文(複数の文章)の入力を受け付ける。また、受付部101は、受け付けた複数の論文を、論文DB110に格納する。受付部101が受け付ける複数の論文の各々には、日付を示す情報が含まれている。当該日付を示す情報は、例えば、論文が投稿された年月日や、論文が作成された年月日であってもよい。
The
生成部102は、分析対象となる複数の論文から得られる、連続する複数の単語を含む単語群からNグラム(N-gram)を生成する。
The
本実施形態におけるNグラムとは、複数の単語を含む文章を、連続したN個の単語単位で分割することで生成される文字列である。また、Nが1の場合はユニグラム(Uni-gram)、Nが2の場合はバイグラム(Bi-gram)、Nが3の場合はトリグラム(Tri-gram)、Nが4の場合はフォーグラム(Four-gram)、Nが5の場合はファイブグラム(Five-gram)、Nが6の場合はシックスグラム(Six-gram)などと称する。生成部102は、単語群に含まれる単語数をnとした場合、1~nまでの複数のNグラムを生成する。
In this embodiment, an N-gram is a character string generated by dividing a sentence containing multiple words into units of N consecutive words. In addition, when N is 1, it is called a Uni-gram, when N is 2, it is called a Bi-gram, when N is 3, it is called a Tri-gram, when N is 4, it is called a Four-gram, when N is 5, it is called a Five-gram, when N is 6, etc. The
推定部103は、生成されたNグラムのうち隣接する2つのNグラム間の類似度を評価することで、分析対象となる複数の論文で用いられる技術ワード(特定の用語)を推定する。また、推定部103は、推定した技術ワードが複数存在する場合、複数の技術ワードの各々の分散表現(ベクトル)に基づいて類似度を評価することで、類似する技術ワードをまとめたグループ(技術ワードのグループ)を推定する。
The
集計部104は、分析対象となる複数の論文の中から、技術ワードを含む論文の数を所定期間ごとに集計する。また、集計部104は、分析対象となる複数の論文の中から、技術ワードのグループのうち、少なくともいずれか1つの技術ワードを含む論文の数を所定期間ごとに集計するようにしてもよい。
The counting
検出部105は、集計部104により集計された所定期間ごとの論文の数に基づいて、技術ワードを含む論文の数が増加する、時系列上の変化点を検出する。また、検出部105は、集計部104により集計された所定期間ごとの論文の数に基づいて、技術ワードのグループのうち少なくともいずれか1つの技術ワードを含む論文の数が増加する、時系列上の変化点を検出するようにしてもよい。
The
学習部106は、論文DB110に格納された論文データを用いて、技術ワード推定用モデルM110及びグループ推定用モデルM120を学習させる。
The
<処理手順>
図4は、分析装置10が行う処理手順の一例を示すフローチャートである。以下、図4を用いて、分析装置10が大量の論文データを読み込んで分析を行い、注目されている技術ワードを端末20の画面に表示するまでの一連の処理手順を説明する。
<Processing Procedure>
Fig. 4 is a flowchart showing an example of a processing procedure performed by the
ステップS10で、受付部101は、分析対象となる複数の論文の入力を受け付け、論文DB110に格納する。例えば、受付部101は、インターネット上で提供されている、研究者が論文を自由に投稿可能なサービスにアクセスし、過去(過去全てでもよいし、過去5年間など一部の期間であってもよい)に投稿された論文をダウンロードして論文DB110に格納するようにしてもよい。また、論文の全てをダウンロードして論文DB110に格納するのではなく、論文の要約(Abstract)部分のみ又は本文のみをダウンロードして論文DB110に格納するようにしてもよい。
In step S10, the
ステップS11で、生成部102は、論文DB110に格納されている論文データのうち、分析対象となる論文に含まれる各文章を、単語に分解する。例えば、生成部102は、日本語については形態素解析を行うことで単語に分解し、英語についてはスペースを単語の区切りとして認識する。
In step S11, the
ステップS12で、生成部102は、クレンジング処理を行うことで、不要な文字や単語(例えば冠詞、主語、接続詞、be動詞など)を削除し、技術ワードになり得る単語を残す。このとき、生成部102は、文章の中で、削除した文字や単語が存在していた部分で文章を区切り、区切られた部分に含まれる1又は複数の単語を含む単語群を認識できるようにしておく。また、各単語について語幹処理を行うことで、語尾が変化する動詞や形容詞等については語幹のみを残し、語幹以外の部分を消去する。
In step S12, the
ここで、「In this paper, we propose the simple Generative Adversarial Network model which allows long-range dependency modeling for image generation tasks.」という文章を例に、ステップS11及びステップS12の処理手順について具体例を説明する。 Here, we will explain a specific example of the processing procedures of steps S11 and S12 using the sentence "In this paper, we propose the simple Generative Adversarial Network model which allows long-range dependency modeling for image generation tasks." as an example.
まず、生成部102は、スペースと句読点(カンマ、ピリオド等)を単語の区切りとして認識することで、文章を単語に分解する。続いて、生成部102はクレンジング処理を行い、削除した文字や単語が存在していた部分を認識できるように区切り文字(説明の都合上「:」とする)を挿入する。これにより、生成部102は、文字列「paper : propose : simple Generative Adversarial Network model : allow long-range dependency modeling : image generation tasks」を出力する。
First, the
続いて、生成部102は、語幹処理を行うことで語幹のみを残す。これにより、生成部102は、文字列「paper : propose : simple Gener Adversar Network model : allow long-range depend model : image gener task」を出力する。
Next, the
ステップS13で、推定部103は、技術ワードの推定を行う。ここで、推定部103は、ステップS12の処理手順で生成された文章のうち区切り文字で区切られた部分に1単語のみが含まれる部分については、当該1単語を技術ワードとして推定する。例えば、文字列「paper : propose : simple Generative Adversarial Network model : allow long-range dependency modeling : image generation tasks」について、推定部103は、「paper」及び「propose」は、技術ワードであると推定する。
In step S13, the
続いて、推定部103は、区切り文字で区切られた部分に複数の単語が含まれる単語群について、各単語が技術ワードなのか、若しくは複数の連続する単語からなる熟語が技術ワードなのかを推定する。まず、生成部102は単語群ごとにNグラムを生成する。
Next, for a word group in which multiple words are contained in a portion separated by a delimiter, the
以下、単語群「simple Generative Adversarial Network model」のNグラムを生成する例を説明する。当該単語群には5つの単語が含まれるため、生成部102は、1~5までの複数のNグラムを生成する。具体的には、ユニグラムについては、“simple”、“Generative”、“Adversarial”、“Network”、“model”という5つの文字列を生成する。バイグラムについては、“simple Generative”、“Generative Adversarial”、“Adversarial Network”、“Network model”という4つの文字列を生成する。トリグラムについては、“simple Generative Adversarial”、“Generative Adversarial Network”、“Adversarial Network model”という3つの文字列を生成する。フォーグラムについては、“simple Generative Adversarial Network”、“Generative Adversarial Network model”という2つの文字列を生成する。ファイブグラムについては、“simple Generative Adversarial Network model”という1つの文字列を生成する。
Below, an example of generating an N-gram for the word group "simple Generative Adversarial Network model" will be described. Since the word group includes five words, the
続いて、推定部103は、生成されたNグラムを用いて技術ワードを推定する。推定部103は、Nの値をNの最大値から1つ減算したNグラムについて、隣接する2つのNグラム間(隣接するNグラムのペアと称してもよい)の類似度が所定閾値(第1閾値)以上であるか否かを判定する。類似度が所定閾値(第1閾値)以上である隣接する2つのNグラムが存在しない場合は、Nの値を更に1減算したNグラムについて、隣接する2つのNグラム間の類似度が所定閾値(第1閾値)以上であるか否かを判定する処理を、Nの値が1になるまで繰り返し行う。隣接する2つのNグラム間の類似度が所定閾値(第1閾値)以上であるNグラムが存在する場合、当該隣接する2つのNグラムに対応する、Nの値が1つ大きいNグラムに含まれる単語を順に組み合わせた熟語を、技術ワードとして推定する。
Then, the
なお、ユニグラムの場合、「隣接する2つのNグラム」とは、単語群の中で連続する2つの単語のペアであり、「隣接する2つのNグラムに対応する、Nの値が1つ大きいNグラムに含まれる単語を順に組み合わせた熟語」とは、当該連続する2つの単語からなる熟語である。バイグラム以上の場合、「隣接する2つのNグラム」とは、1≦p<n(pは、p+N≦nを満たす自然数、nは単語群に含まれる単語数)としたとき、単語群に含まれる単語のうちp番目から(p+N-1)番目までの連続する単語からなるNグラムと、(p+1)番目から(p+N)番目までの連続する単語からなるNグラムとのペアである。また、「隣接する2つのNグラムに対応する、Nの値が1つ大きいNグラムに含まれる単語を順に組み合わせた熟語」とは、p番目から(p+N)番目までの連続する単語からなるNグラムの熟語である。 In the case of unigrams, "two adjacent N-grams" refers to a pair of two consecutive words in a word group, and "a phrase formed by sequentially combining words included in an N-gram with an N value one larger corresponding to two adjacent N-grams" refers to a phrase formed from the two consecutive words. In the case of bigrams or higher, "two adjacent N-grams" refers to a pair of an N-gram formed from consecutive words p to (p+N-1) among the words included in the word group, and an N-gram formed from consecutive words (p+1) to (p+N). In addition, "a phrase formed by sequentially combining words included in an N-gram with an N value one larger corresponding to two adjacent N-grams" refers to an N-gram phrase formed from consecutive words p to (p+N).
例えば、単語群“A B C D”(A~Dは単語を意味する)について、バイグラムの場合の「隣接する2つのNグラム」を求めるとする。この場合、n=4かつN=2であることから、p+2≦4を満たすpの値は1又は2である。なお、p+N≦nを満たすpの値が複数存在する場合、推定部103は、複数の値の各々について、隣接する2つのNグラム間の類似度が所定閾値(第1閾値)以上であるか否かを判定する。
For example, suppose that the "two adjacent N-grams" in the case of bigrams are to be found for the word group "A B C D" (A to D represent words). In this case, since n = 4 and N = 2, the value of p that satisfies p + 2 ≦ 4 is 1 or 2. Note that if there are multiple values of p that satisfy p + N ≦ n, the
p=1とする場合、「隣接する2つのNグラム」は、1番目から(1+2-1)番目までの連続する単語と、(1+1)番目から(1+2)番目までの連続する単語、つまり、“A B”と“B C”になる。また、「隣接する2つのNグラムに対応する、Nの値が1つ大きいNグラムに含まれる単語を順に組み合わせた熟語」とは、1番目から(1+2)番目までの連続する単語、つまり、“A B C”になる。 When p=1, the "two adjacent N-grams" are the consecutive words from the 1st to the (1+2-1)th and the consecutive words from the (1+1)th to the (1+2)th, i.e., "A B" and "B C." Also, the "phrase formed by combining, in order, the words contained in the N-gram with an N value one larger that corresponds to the two adjacent N-grams" is the consecutive words from the 1st to the (1+2)th, i.e., "A B C."
p=2とする場合、「隣接する2つのNグラム」は、2番目から(2+2-1)番目までの連続する単語と、(2+1)番目から(2+2)番目までの連続する単語、つまり、“B C”と“C D”になる。また、「隣接する2つのNグラムに対応する、Nの値が1つ大きいNグラムに含まれる単語を順に組み合わせた熟語」とは、2番目から(2+2)番目までの連続する単語、つまり、“B C D”になる。 When p=2, the "two adjacent N-grams" are the consecutive words from the second to the (2+2-1)th word and the consecutive words from the (2+1)th to the (2+2)th word, i.e., "B C" and "C D." Also, the "phrase formed by combining, in order, the words contained in the N-gram with an N value one larger that corresponds to the two adjacent N-grams" is the consecutive words from the second to the (2+2)th word, i.e., "B C D."
ここで、推定部103は、隣接する2つのNグラム間の類似度を、入力された2つの単語間の類似度を出力する技術ワード推定用モデルM110を用いて判定する。技術ワード推定用モデルM110は、論文DB110に格納されている論文データを用いて予め生成された、単語間の類似度を出力する学習済みモデルである。技術ワード推定用モデルM110は、例えば、word2vecと呼ばれる技術を用いて生成することが可能である。
Here, the
図3に示すように、本実施形態では、技術ワード推定用モデルM110には、ユニグラムの単語間の類似度を出力するユニグラムモデルM111、バイグラムの単語間の類似度を出力するバイグラムモデルM112、トリグラムの単語間の類似度を出力するトリグラムモデルM113、フォーグラムの単語間の類似度を出力するフォーグラムモデルM114が含まれる。なお、技術ワード推定用モデルM110に含まれる5つのモデルはあくまで一例であり、ファイブグラムモデルやシックスグラムモデルといったように、Nの値が更に大きいモデルも含まれていてもよい。 As shown in FIG. 3, in this embodiment, the technical word estimation model M110 includes a unigram model M111 that outputs similarities between unigram words, a bigram model M112 that outputs similarities between bigram words, a trigram model M113 that outputs similarities between trigram words, and a four-gram model M114 that outputs similarities between four-gram words. Note that the five models included in the technical word estimation model M110 are merely examples, and models with even larger values of N, such as a five-gram model or a six-gram model, may also be included.
ここで、バイグラムモデルM112の生成方法を説明する。当該モデルは、論文DB110に格納されている論文データの各文章について、ステップS11及びステップS12の処理手順で説明した処理を行い、各文章を2単語ごとに繋いだ文章を作成し、作成した文章をword2vecに学習させることで生成することができる。例えば、学習部106は、ステップS11及びステップS12の処理手順により出力された文章「paper propose simple Gener Adversar Network model allow long-range depend model image gener task」が存在する場合、文章「paper_propose propose_simple simple_Gener Gener_Adversari Adversari_Network Network_model model_allow allow_long-range long-range_dependency dependency_modeling modeling_image image_generation generation_task」を生成し、word2vecに学習させる。学習部106は、このような処理を、論文DB110に格納されている論文データに含まれる全文章について繰り返し行う。これにより、論文DB110に格納されている論文データに含まれる2単語を繋げたバイグラムについて分散表現(ベクトル)が定められることから、推定部103は、学習させたword2vecを用いることで、当該分散表現に基づいて2つのバイグラム間の類似度を評価することが可能になる。なお、word2vecは一例に過ぎず、分散表現に基づいて単語間の類似度を評価する技術であれば、どのような技術を利用することも可能である。
Here, a method for generating the bigram model M112 will be described. The model can be generated by performing the process described in the processing procedure of steps S11 and S12 for each sentence of the paper data stored in the
図5は、技術ワードを推定する処理の一例を説明するための図である。図5を用いて、推定部103が、単語群「simple gener adversarial network model」に存在する技術ワードを推定する場合の例を説明する。まず、推定部103は、単語群に含まれる単語数をnとした場合に、Nの値をnの最大値から1つ減算した値とするNグラムについて、隣接する2つのNグラム間の類似度が所定の閾値以上であるか否かを判定する。なお、図5の例では、単語群に5つの単語が含まれるので、nの値は5である。
Figure 5 is a diagram for explaining an example of a process for estimating technical words. Using Figure 5, an example will be described in which the
まず、推定部103は、5から1を引いたフォーグラムについて、フォーグラムモデルM114を用いて、隣接するフォーグラムのペア、つまり“simple gener adversari network”及び“gener adversari network model”の間の類似度を推定する。類似度が所定閾値(第1閾値)以上である場合、推定部103は、これらのフォーグラムのペアの一つ上のファイブグラムの熟語(つまり、simple gener adversari network model)を、技術ワードとして推定する。
First, the
一方、類似度が所定閾値(第1閾値)未満である場合、推定部103は、4から1を引いたトリグラムについて、トリグラムモデルM113を用いて、隣接するトリグラムのペア、つまり、“simple gener adversari”及び“gener adversari network”の間の類似度、並びに、“gener adversari network”及び“adversari network model”の間の類似度を推定する。
On the other hand, if the similarity is less than the predetermined threshold (first threshold), the
もし、“simple gener adversari”及び“gener adversari network”の間の類似度が所定閾値(第1閾値)以上である場合、推定部103は、これらのトリグラムのペアの一つ上のフォーグラムの熟語(つまり、simple gener adversari network)を、技術ワードとして推定する。また、“gener adversari network”及び“adversari network model”の間の類似度が所定閾値(第1閾値)以上である場合、推定部103は、これらのトリグラムのペアの一つ上のフォーグラムの熟語(つまり、gener adversari network model)を、技術ワードとして推定する。なお、“simple gener adversari”及び“gener adversari network”の間の類似度、並びに、“gener adversari network”及び“adversari network model”の間の類似度の両方が所定閾値(第1閾値)以上である場合、推定部103は、類似度が高い方について、これらのトリグラムのペアの一つ上のフォーグラムの熟語を、技術ワードとして推定する。
If the similarity between "simple gener adversari" and "gener adversari network" is equal to or greater than a predetermined threshold (first threshold), the
一方、いずれの類似度も所定閾値(第1閾値)未満である場合、推定部103は、3から1を引いたバイグラムについて、バイグラムモデルM112を用いて、隣接するバイグラムのペア、つまり、“simple gener”及び“gener adversari”の間の類似度、“gener adversari”及び“adversari network”の間の類似度、並びに、“adversari network”及び“network model”の間の類似度を推定する。これらの中に、類似度が所定閾値(第1閾値)以上である、隣接するバイグラムのペアが存在する場合、推定部103は、当該2つのバイグラムの一つ上のトリグラムの熟語を技術ワードとして推定する。もし、類似度が所定閾値(第1閾値)以上である、隣接するバイグラムのペアが複数存在する場合、推定部103は、最も類似度が大きいペアの一つ上のトリグラムの熟語を技術ワードとして推定する。
On the other hand, if all similarities are less than the predetermined threshold (first threshold), the
一方、いずれの類似度も所定閾値(第1閾値)未満である場合、推定部103は、2から1を引いたユニグラムについて、ユニグラムモデルM111を用いて、隣接するユニグラムのペア、つまり、“simple”及び“gener”の間の類似度、“gener”及び“adversari”の間の類似度、“adversari”及び“network”の間の類似度、並びに、“network”及び“model”の間の類似度を推定する。これらの中に、類似度が所定閾値(第1閾値)以上である隣接するユニグラムのペアが存在する場合、推定部103は、当該ペアの一つ上のバイグラムの熟語を技術ワードとして推定する。もし、類似度が所定閾値(第1閾値)以上であるユニグラムのペアが複数存在する場合、推定部103は、最も類似度が大きいペアの一つ上のバイグラムの熟語を技術ワードとして推定する。
On the other hand, if all similarities are less than the predetermined threshold (first threshold), the
一方、いずれの類似度も所定閾値(第1閾値)未満である場合、推定部103は、全てのユニグラム(つまり、simple, gener, adversari, network, model)を、技術ワードとして推定する。
On the other hand, if all similarities are less than the predetermined threshold (first threshold), the
ステップS14で、推定部103は、ステップS13の処理手順で推定した技術ワードが複数存在する場合、複数の技術ワードの各々の分散表現(ベクトル)に基づいて類似度を評価することで、類似する技術ワードをまとめたグループ(技術ワードのグループ)を推定する。推定部103は、グループ推定用モデルM120を用いることで、グループの推定を行う。
In step S14, if there are multiple technical words estimated in the processing procedure of step S13, the
グループ推定用モデルM120は、例えば、論文DB110に格納されている論文データの各文章について、ステップS12及びステップS13の処理手順を行うとともに、ステップS14の処理手順で推定された熟語の技術ワードについてはアンダーバー等で結合することで一つの文字列になるように変換した文章を用意し、用意した文章をword2vecに学習させることで生成することができる。 The group estimation model M120 can be generated, for example, by carrying out the processing procedures of steps S12 and S13 for each sentence of the paper data stored in the paper DB110, preparing sentences in which the technical words of phrases estimated in the processing procedure of step S14 are converted into a single character string by combining them with underscores or the like, and having word2vec learn the prepared sentences.
ここで、グループ推定用モデルM120の生成例を説明する。なお、ステップS14の処理手順で、“simple gener adversari”が熟語の技術ワードとして推定されたと仮定する。まず、生成部102は、ステップS11及びステップS12の処理手順を行うことで、文章「In this paper, we propose the simple Generative Adversarial Network model which allows long-range dependency modeling for image generation tasks.」を、文章「paper propose simple Gener Adversar Network model allow long-range depend model image gener task」に変換する。続いて、生成部102は、熟語の技術ワードに含まれる複数の単語をアンダーバーで結合することで、当該熟語が、word2vecにおいて一つの単語として認識されるようにする。具体的には、生成部102は、文章「paper propose simple_Gener_Adversari Network model allow long-range depend model image gener task」に変換する。続いて、学習部106は、変換された文章を、word2vecに学習させる。これにより、各技術ワードの分散表現(ベクトル)を求めることが可能となるため、2つの技術ワードを入力することで、2つの技術ワード間の類似度を出力することが可能な学習モデルを生成することができる。
Here, an example of generating the group estimation model M120 will be described. It is assumed that "simple gener adversari" is estimated as a technical word of the phrase in the processing procedure of step S14. First, the
推定部103は、ステップS13の処理手順で推定された全ての技術ワードについて、2つの技術ワード間の類似度を総当たりで推定し、類似度が近い技術ワードの組み合わせを、技術ワードのグループとする。例えば、推定部103は、全ての組み合わせにおいて類似度が所定閾値(第2閾値)以上となる技術ワードの組み合わせを、技術ワードのグループとみなすようにしてもよい。例えば、“blockchain”、“smart contract”、“bitcoin”及び“ethereum”の4つの単語について、全ての組み合わせにおいて類似度が所定閾値(第2閾値)以上であった場合、推定部103は、“blockchain”、“smart contract”、“bitcoin”及び“ethereum”の4つの単語を、技術ワードのグループとみなすようにしてもよい。なお、技術ワードのグループを推定する方法はこれに限定されず、他のクラスタリング手法が用いられてもよい。
The
ステップS15で、集計部104は、論文DB110に格納されている全論文について、技術ワードのグループのうち少なくともいずれか1つの技術ワードを含む論文の数を、各論文に含まれる日付を示す情報(ここでは投稿日とする)に基づいて、技術ワードのグループごとかつ所定期間ごとに集計する。例えば、“blockchain”、“smart contract”、“bitcoin”及び“ethereum”の4つの単語からなる技術ワードのグループが存在する場合、これらの単語の少なくともいずれか1つを含む論文を検索し、検索された論文に含まれる投稿日を用いて、所定期間(例えば1ヵ月間隔)に論文数を集計する。これにより、例えば、上記技術ワードのグループを含む論文の投稿数は、2015年1月は5件、2015年2月は7件、2015年3月は10件、2015年4月は20件といったデータを得ることができる。
In step S15, the
続いて、検出部105は、集計部104により集計された所定期間ごとの論文の数に基づいて、技術ワードのグループのうち少なくともいずれか1つの技術ワードを含む論文の数が増加する、時系列上の変化点を検出する。検出部105は、例えば、Change finder等の既知の変化点検出アルゴリズムを用いることで、時系列上の変化点を検出するようにしてもよいし、月別の論文数の比(例えば前月比20%上昇)に基づいて時系列上の変化点を検出するようにしてもよい。検出部105は、これらに限定されず、どのような方法で変化点を検出するようにしてもよい。
Then, the
図6は、端末20に表示される、論文数及び変化点を示すグラフの一例を示す図である。図6(a)は、ある特定の技術ワードのグループのうち少なくともいずれか1つの技術ワードを含む論文の数の変化を示すグラフである。縦軸は論文投稿数であり、横軸は年月である。図6(b)は、図6(a)に示す論文投稿数に基づいて算出された変化点のスコアを示す。図6(b)において、急激にスコアが大きくなる箇所が変化点である。図6(b)によれば、2018年6月頃と、2018年9月頃に、論文投稿数が大きく変化していることが示されている。 Figure 6 shows an example of a graph showing the number of papers and change points displayed on the terminal 20. Figure 6(a) is a graph showing the change in the number of papers that contain at least one technical word from a group of specific technical words. The vertical axis represents the number of papers submitted, and the horizontal axis represents the year and month. Figure 6(b) shows the score of the change point calculated based on the number of papers submitted shown in Figure 6(a). In Figure 6(b), the points where the score increases suddenly are the change points. Figure 6(b) shows that the number of papers submitted changed significantly around June 2018 and around September 2018.
以上説明した処理手順において、ステップS14の処理手順は省略されてもよい。技術ワードによっては、必ずしもグループ化する必要が無い場合も想定されるためである。ステップS14の処理手順が省略される場合、ステップS15の処理手順で、集計部104は、論文DB110に格納されている全論文について、技術ワードを含む論文の数を、各論文に含まれる日付を示す情報に基づいて、技術ワードごとかつ所定期間ごとに集計するようにしてもよい。また、検出部105は、集計部104により集計された所定期間ごとの文章の数に基づいて、技術ワードを含む文章の数が増加する、時系列上の変化点を検出するようにしてもよい。
In the processing procedure described above, the processing procedure of step S14 may be omitted. This is because it is expected that grouping may not be necessary depending on the technical word. If the processing procedure of step S14 is omitted, in the processing procedure of step S15, the
<まとめ>
以上説明した実施形態によれば、分析装置10は、分析対象の論文からNグラムを生成し、隣接するNグラム間の類似度を評価するようにした。これにより、複数の論文で用いられる最新の技術ワードを、辞書を利用することなく抽出することが可能になる。また、分析装置10は、類似する技術ワードのグループを推定し、推定した技術ワードのグループのうち少なくともいずれか1つの技術ワードが論文の中で使用される頻度の推移に基づいて、最新技術の流行の兆しを検出するようにした。最新の技術ワードは、名前が一意に定まっていないケースが多々存在するが、類似する技術ワードを考慮して論文数をカウントすることで、最新技術の流行の兆しをより適切に検出することが可能になる。
<Summary>
According to the embodiment described above, the
以上説明した実施形態では、分析装置10が投稿された論文を分析する前提で説明したが、本実施形態はこれに限定されない。本実施形態は、論文に限定されず、様々な文章の分析に適用することが可能である。
In the embodiment described above, the
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態で説明したフローチャート、シーケンス、実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。 The above-described embodiments are intended to facilitate understanding of the present invention, and are not intended to limit the present invention. The flow charts, sequences, elements included in the embodiments, and their arrangements, materials, conditions, shapes, sizes, etc., described in the embodiments are not limited to those exemplified, and may be modified as appropriate. In addition, configurations shown in different embodiments may be partially substituted or combined.
1…文書分析システム、10…分析装置、11…プロセッサ、12…記憶装置、13…通信IF、14…入力デバイス、15…出力デバイス、20…端末、100…記憶部、101…受付部、102…生成部、103…推定部、104…集計部、105…検出部、106…学習部 1... document analysis system, 10... analysis device, 11... processor, 12... storage device, 13... communication IF, 14... input device, 15... output device, 20... terminal, 100... storage unit, 101... reception unit, 102... generation unit, 103... estimation unit, 104... aggregation unit, 105... detection unit, 106... learning unit
Claims (5)
前記複数の文章に含まれる、連続する複数の単語を含む単語群からNグラムを生成する生成部と、
生成された前記Nグラムのうち隣接する2つのNグラム間の類似度を評価することで、前記複数の文章で用いられる特定の用語を推定する推定部と、
前記特定の用語に関する情報を出力する出力部と、
を有し、
前記NグラムにおけるNの最大値は前記単語群に含まれる複数の単語の数であり、
前記推定部は、
Nの値をNの最大値から1つ減算したNグラムについて、隣接する2つのNグラム間の類似度が所定の閾値以上であるか否かを判定し、類似度が第1閾値以上である隣接する2つのNグラムが存在しない場合は、Nの値を更に1減算したNグラムについて、隣接する2つのNグラム間の類似度が所定の閾値以上であるか否かを判定する処理を、Nの値が1になるまで繰り返し行い、
隣接する2つのNグラム間の類似度が前記第1閾値以上であるNグラムが存在する場合、該隣接する2つのNグラムに対応する、Nの値が1つ大きいNグラムに含まれる単語を順に組み合わせた熟語を、前記特定の用語として推定する、
推定装置。 A reception unit that receives input of a plurality of sentences;
a generation unit that generates an N-gram from a word group including a plurality of consecutive words included in the plurality of sentences;
an estimation unit that estimates a specific term used in the plurality of sentences by evaluating a similarity between two adjacent N-grams among the generated N-grams;
an output unit that outputs information related to the specific term;
having
the maximum value of N in the N-gram is the number of words included in the word group,
The estimation unit is
For an N-gram obtained by subtracting 1 from the maximum value of N, determine whether or not the similarity between two adjacent N-grams is equal to or greater than a predetermined threshold. If there are no adjacent N-grams whose similarity is equal to or greater than the first threshold, determine whether or not the similarity between two adjacent N-grams is equal to or greater than a predetermined threshold for an N-gram obtained by further subtracting 1 from the value of N, and repeat this process until the value of N becomes 1;
When there is an N-gram in which the similarity between two adjacent N-grams is equal to or greater than the first threshold, a phrase formed by combining, in order, words included in the N-gram corresponding to the two adjacent N-grams and having an N value that is one larger than the first threshold, is estimated as the specific term .
Estimation device.
前記日付を示す情報に基づいて、前記複数の文章の中から、前記特定の用語を含む文章の数を、所定期間ごとに集計する集計部と、
前記集計部により集計された前記所定期間ごとの前記文章の数に基づいて、前記特定の用語を含む文章の数が増加する、時系列上の変化点を検出する検出部と、を含み、
前記出力部は、前記時系列上の変化点に関する情報を出力する、
請求項1に記載の推定装置。 Each of the plurality of sentences includes information indicating a date; and
a counting unit that counts the number of sentences including the specific term from among the plurality of sentences for each predetermined period based on the information indicating the date;
a detection unit that detects a change point in the time series where the number of sentences including the specific term increases based on the number of sentences for the predetermined period tallied by the counting unit,
The output unit outputs information regarding change points on the time series.
The estimation device according to claim 1 .
前記集計部は、前記日付を示す情報に基づいて、前記複数の文章の中から、前記特定の用語のグループのうち、少なくともいずれか1つの特定の用語を含む文章の数を、所定期間ごとに集計し、
前記検出部は、前記集計部により集計された前記所定期間ごとの前記文章の数に基づいて、前記特定の用語のグループのうち少なくともいずれか1つの特定の用語を含む文章の数が増加する、時系列上の変化点を検出する、
請求項2に記載の推定装置。 the estimation unit, when there are a plurality of estimated specific terms, estimates a similarity based on a distributed representation of each of the plurality of specific terms to estimate a group of the specific terms;
the counting unit counts, for each predetermined period, the number of sentences including at least one specific term in the group of specific terms from among the plurality of sentences based on the information indicating the date;
the detection unit detects a change point in the time series at which the number of sentences including at least one specific term among the group of specific terms increases, based on the number of sentences for the predetermined period tallied by the counting unit;
The estimation device according to claim 2 .
推定装置が、複数の文章の入力を受け付けるステップと、
推定装置が、前記複数の文章に含まれる、連続する複数の単語を含む単語群からNグラムを生成するステップと、
推定装置が、生成された前記Nグラムのうち隣接する2つのNグラム間の類似度を評価することで、前記複数の文章で用いられる特定の用語を推定するステップと、
推定装置が、前記特定の用語に関する情報を出力するステップと、を含み、
前記NグラムにおけるNの最大値は前記単語群に含まれる複数の単語の数であり、
前記推定するステップは、
Nの値をNの最大値から1つ減算したNグラムについて、隣接する2つのNグラム間の類似度が所定の閾値以上であるか否かを判定し、類似度が第1閾値以上である隣接する2つのNグラムが存在しない場合は、Nの値を更に1減算したNグラムについて、隣接する2つのNグラム間の類似度が所定の閾値以上であるか否かを判定する処理を、Nの値が1になるまで繰り返し行い、
隣接する2つのNグラム間の類似度が前記第1閾値以上であるNグラムが存在する場合、該隣接する2つのNグラムに対応する、Nの値が1つ大きいNグラムに含まれる単語を順に組み合わせた熟語を、前記特定の用語として推定する、
推定方法。 An estimation method performed by an estimation device,
A step of receiving an input of a plurality of sentences by the estimation device ;
A step in which an estimation device generates an N-gram from a word group including a plurality of consecutive words included in the plurality of sentences;
A step in which an estimation device estimates a similarity between two adjacent N-grams among the generated N-grams, thereby estimating specific terms used in the plurality of sentences;
The estimation device outputs information about the specific term ,
the maximum value of N in the N-gram is the number of words included in the word group,
The estimating step includes:
For an N-gram obtained by subtracting 1 from the maximum value of N, determine whether or not the similarity between two adjacent N-grams is equal to or greater than a predetermined threshold. If there are no adjacent N-grams whose similarity is equal to or greater than the first threshold, determine whether or not the similarity between two adjacent N-grams is equal to or greater than a predetermined threshold for an N-gram obtained by further subtracting 1 from the value of N, repeating this process until the value of N becomes 1;
When there is an N-gram in which the similarity between two adjacent N-grams is equal to or greater than the first threshold, a phrase formed by combining, in order, words included in the N-gram corresponding to the two adjacent N-grams and having an N value that is one larger than the first threshold, is estimated as the specific term.
Estimation method.
複数の文章の入力を受け付けるステップと、
前記複数の文章に含まれる、連続する複数の単語を含む単語群からNグラムを生成するステップと、
生成された前記Nグラムのうち隣接する2つのNグラム間の類似度を評価することで、前記複数の文章で用いられる特定の用語を推定するステップと、
推定装置が、前記特定の用語に関する情報を出力するステップと、
を実行させ、
前記NグラムにおけるNの最大値は前記単語群に含まれる複数の単語の数であり、
前記推定するステップは、
Nの値をNの最大値から1つ減算したNグラムについて、隣接する2つのNグラム間の類似度が所定の閾値以上であるか否かを判定し、類似度が第1閾値以上である隣接する2つのNグラムが存在しない場合は、Nの値を更に1減算したNグラムについて、隣接する2つのNグラム間の類似度が所定の閾値以上であるか否かを判定する処理を、Nの値が1になるまで繰り返し行い、
隣接する2つのNグラム間の類似度が前記第1閾値以上であるNグラムが存在する場合、該隣接する2つのNグラムに対応する、Nの値が1つ大きいNグラムに含まれる単語を順に組み合わせた熟語を、前記特定の用語として推定する、
プログラム。
On the computer,
accepting input of a plurality of sentences;
generating N-grams from a word group including a plurality of consecutive words included in the plurality of sentences;
A step of estimating specific terms used in the plurality of sentences by evaluating a similarity between two adjacent N-grams among the generated N-grams;
an estimation device outputting information about the specific term;
Run the command ,
the maximum value of N in the N-gram is the number of words included in the word group,
The estimating step includes:
For an N-gram obtained by subtracting 1 from the maximum value of N, determine whether or not the similarity between two adjacent N-grams is equal to or greater than a predetermined threshold. If there are no adjacent N-grams whose similarity is equal to or greater than the first threshold, determine whether or not the similarity between two adjacent N-grams is equal to or greater than a predetermined threshold for an N-gram obtained by further subtracting 1 from the value of N, and repeat this process until the value of N becomes 1;
When there is an N-gram in which the similarity between two adjacent N-grams is equal to or greater than the first threshold, a phrase formed by combining, in order, words included in the N-gram corresponding to the two adjacent N-grams and having an N value that is one larger than the first threshold, is estimated as the specific term.
program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020172682A JP7553314B2 (en) | 2020-10-13 | 2020-10-13 | Estimation device, estimation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020172682A JP7553314B2 (en) | 2020-10-13 | 2020-10-13 | Estimation device, estimation method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022064137A JP2022064137A (en) | 2022-04-25 |
JP7553314B2 true JP7553314B2 (en) | 2024-09-18 |
Family
ID=81378650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020172682A Active JP7553314B2 (en) | 2020-10-13 | 2020-10-13 | Estimation device, estimation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7553314B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012111226A1 (en) | 2011-02-15 | 2012-08-23 | 日本電気株式会社 | Time-series document summarization device, time-series document summarization method and computer-readable recording medium |
JP2012185666A (en) | 2011-03-04 | 2012-09-27 | Rakuten Inc | Device and method for aggregation and expansion processing, program, and storage medium |
-
2020
- 2020-10-13 JP JP2020172682A patent/JP7553314B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012111226A1 (en) | 2011-02-15 | 2012-08-23 | 日本電気株式会社 | Time-series document summarization device, time-series document summarization method and computer-readable recording medium |
JP2012185666A (en) | 2011-03-04 | 2012-09-27 | Rakuten Inc | Device and method for aggregation and expansion processing, program, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP2022064137A (en) | 2022-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10740545B2 (en) | Information extraction from open-ended schema-less tables | |
US10691770B2 (en) | Real-time classification of evolving dictionaries | |
KR101465770B1 (en) | Word probability determination | |
US9052748B2 (en) | System and method for inputting text into electronic devices | |
CN104991891B (en) | A kind of short text feature extracting method | |
CN103970798B (en) | The search and matching of data | |
JP5379138B2 (en) | Creating an area dictionary | |
CN111460083A (en) | Document title tree construction method and device, electronic equipment and storage medium | |
CN112395385B (en) | Text generation method and device based on artificial intelligence, computer equipment and medium | |
CN107885717B (en) | Keyword extraction method and device | |
CN110879834B (en) | Viewpoint retrieval system based on cyclic convolution network and viewpoint retrieval method thereof | |
CN112633000B (en) | Method and device for associating entities in text, electronic equipment and storage medium | |
CN104484380A (en) | Personalized search method and personalized search device | |
JP4534666B2 (en) | Text sentence search device and text sentence search program | |
TW201826145A (en) | Method and system for knowledge extraction from Chinese corpus useful for extracting knowledge from source corpuses mainly written in Chinese | |
Singh et al. | Sentiment analysis using lexicon based approach | |
Jain et al. | “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning | |
US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
CN114255067A (en) | Data pricing method and device, electronic equipment and storage medium | |
US20190095525A1 (en) | Extraction of expression for natural language processing | |
CN111680146A (en) | Method and device for determining new words, electronic equipment and readable storage medium | |
JP7553314B2 (en) | Estimation device, estimation method, and program | |
CN113553410B (en) | Long document processing method, processing device, electronic equipment and storage medium | |
JP6805927B2 (en) | Index generator, data search program, index generator, data search device, index generation method, and data search method | |
CN115048523A (en) | Text classification method, device, equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230613 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240401 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240501 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240823 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240905 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7553314 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |