JP7507733B2 - Information processing device, information processing method, and information processing program - Google Patents
Information processing device, information processing method, and information processing program Download PDFInfo
- Publication number
- JP7507733B2 JP7507733B2 JP2021134681A JP2021134681A JP7507733B2 JP 7507733 B2 JP7507733 B2 JP 7507733B2 JP 2021134681 A JP2021134681 A JP 2021134681A JP 2021134681 A JP2021134681 A JP 2021134681A JP 7507733 B2 JP7507733 B2 JP 7507733B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- character information
- character
- learning
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 190
- 238000003672 processing method Methods 0.000 title claims description 7
- 239000013598 vector Substances 0.000 claims description 40
- 238000000034 method Methods 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 25
- 239000000284 extract Substances 0.000 claims description 16
- 238000010801 machine learning Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 description 57
- 238000012545 processing Methods 0.000 description 37
- 238000013500 data storage Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 7
- 230000008520 organization Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 101100366082 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SNF7 gene Proteins 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 101150047375 DID2 gene Proteins 0.000 description 2
- 101001111655 Homo sapiens Retinol dehydrogenase 11 Proteins 0.000 description 2
- 206010028916 Neologism Diseases 0.000 description 2
- 102100023916 Retinol dehydrogenase 11 Human genes 0.000 description 2
- 101100317166 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) VPS24 gene Proteins 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 101150040982 DID4 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。 The present invention relates to an information processing device, an information processing method, and an information processing program.
機械学習等によりモデルを学習するために用いるデータの生成に関する様々な技術が提供されている。例えば、帳票の手書き文字領域に記入される複数の単語が登録されたデータベースと、手書き文字画像のデータセットとに基づいて文字列画像及び正解ラベルを含む学習用データを生成する技術が提供されている(例えば特許文献1等)。
Various technologies have been provided for generating data used to train a model using machine learning and other methods. For example, a technology has been provided for generating training data including character string images and correct answer labels based on a database in which multiple words written in handwritten character areas of forms are registered, and a dataset of handwritten character images (for example,
しかしながら、上記の従来技術には、改善の余地がある。例えば、従来技術では手書き文字画像、すなわち画像を対象としており、文字情報を対象とするモデルの生成に用いるデータを生成することは難しい。そのため、モデルの学習に利用可能な文字情報を効率的に生成することが望まれている。 However, there is room for improvement in the above conventional techniques. For example, the conventional techniques target handwritten character images, i.e., images, and it is difficult to generate data to be used for generating models that target character information. Therefore, it is desirable to efficiently generate character information that can be used for model training.
本願は、上記に鑑みてなされたものであって、モデルの学習に利用可能な文字情報を効率的に生成する情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。 The present application has been made in consideration of the above, and aims to provide an information processing device, an information processing method, and an information processing program that efficiently generate character information that can be used for model learning.
本願に係る情報処理装置は、所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第1文字情報を含む学習用データセットと、前記ラベルが付されていない文字情報である第2文字情報とを取得する取得部と、前記学習用データセットのうち、前記第2文字情報と類似する前記第1文字情報を類似文字情報として選択し、前記類似文字情報中の前記抽出対象文字列である第1文字列を、前記第2文字情報中の前記抽出対象文字列である第2文字列に変更することにより、前記第2文字列を含み、前記モデルの学習に利用可能な文字情報である変更文字情報を生成する生成部と、を備えたことを特徴とする。 The information processing device according to the present application is characterized by comprising: an acquisition unit that acquires a learning dataset including first character information labeled for use in training a model that extracts a target string of extraction, which is a string corresponding to a predetermined type, from character information, and second character information that is character information without the label; and a generation unit that selects the first character information similar to the second character information from the learning dataset as similar character information, and changes the first character string that is the target string of extraction in the similar character information to the second character string that is the target string of extraction in the second character information, thereby generating changed character information that includes the second character string and is character information that can be used for training the model.
実施形態の一態様によれば、モデルの学習に利用可能な文字情報を効率的に生成することができるという効果を奏する。 According to one aspect of the embodiment, it is possible to efficiently generate character information that can be used for model training.
以下に、本願に係る情報処理装置、情報処理方法、及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法、及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。 Below, the information processing device, information processing method, and information processing program according to the present application will be described in detail with reference to the drawings. Note that the information processing device, information processing method, and information processing program according to the present application are not limited to these embodiments. In addition, the same parts in the following embodiments will be denoted by the same reference numerals, and duplicated descriptions will be omitted.
(実施形態)
〔1.情報処理〕
図1を用いて、実施形態に係る情報処理の一例について説明する。図1は、実施形態に係る情報処理システムによる処理の一例を示す図である。図1では、情報処理装置100が生成した学習用データを用いて固有表現を抽出するモデルM1を生成する場合を一例として説明する。
(Embodiment)
[1. Information Processing]
An example of information processing according to the embodiment will be described with reference to Fig. 1. Fig. 1 is a diagram showing an example of processing by an information processing system according to the embodiment. In Fig. 1, a case where a model M1 that extracts named entities is generated using learning data generated by an
まず、情報処理システム1の構成について説明する。図1に示すように、情報処理システム1は、端末装置10と、情報処理装置100とが含まれる。端末装置10と、情報処理装置100とは図示しない所定の通信網を介して、有線または無線により通信可能に接続される。なお、図1に示した情報処理システム1には、複数台の端末装置10や、複数台の情報処理装置100が含まれてもよい。
First, the configuration of the
情報処理装置100は、ラベルが付された文字情報(以下「第1文字情報」ともいう)中の文字列を、ラベルが付されていない文字情報(以下「第2文字情報」ともいう)中の文字列で変換して、モデルの学習に利用可能な文字情報を生成するコンピュータである。情報処理装置100は、第1文字情報中で所定の種別に該当する文字列(以下「第1文字列」ともいう)を、第2文字情報中で所定の種別に該当すると推定される文字列(以下「第2文字列」ともいう)に変換する。図1の例では、所定の種別が固有表現である場合を一例として説明する。
The
これにより、情報処理装置100は、第2文字列を含み、モデルの学習に利用可能な文字情報(以下「変更文字情報」ともいう)を生成する。図1では、情報処理装置100は、所定の編集者ED1により人手でラベル付与された(人手ラベル付き訓練データ)等の第1文字情報を含む学習用データを用いて、新たに学習用データとして用いられる変更文字情報を生成する。
As a result, the
端末装置10は、データ(文字情報)にラベル(正解情報)を付与し、人手で訓練データ(学習用データ)を生成するために利用されるデバイス(コンピュータ)である。端末装置10は、データに対するラベルを付与する所定の編集者ED1によって利用される。端末装置10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。図1は、端末装置10がデスクトップPCである場合を示す。
The
例えば、所定の編集者ED1は、端末装置10を操作して、各文字情報にラベルを付与する。例えば、端末装置10は、所定の編集者ED1の操作に応じて、図2中に示すラベル付きデータである第1文字情報LD1のように、文字情報中の各文字列が該当する種別(属性)を示す情報(ラベル)を正解情報として付与する。
For example, a specific editor ED1 operates the
例えば、端末装置10は、文字情報のうち所定の種別に該当する文字列が含まれる位置(範囲)を示すラベルを文字情報に付加する。例えば、ラベル文字情報のうち組織名等の固有名詞(固有表現)に該当する文字列を示すラベルを文字情報に付加する。端末装置10は、所定の編集者ED1の操作に応じて、文字情報にラベルを付与することにより、学習用データを生成する。端末装置10は、人手で生成された訓練データ(学習用データ)を情報処理装置100へ送信する。
For example, the
また、情報処理システム1は、ユーザによって利用されるデバイスであるユーザ端末を含んでもよい。ユーザ端末は、例えば、スマートフォンや、タブレット型端末や、ノート型PCや、デスクトップPCや、携帯電話機や、PDA等により実現され、ユーザに様々なサービスを提供する。ユーザ端末は、ユーザの操作に応じて処理を実行し、情報を表示する。
The
また、情報処理システム1は、インターネット百科事典に関するサービスをユーザに提供するサービス提供装置を含んでもよい。なお、ここでいうインターネット百科事典とは例えばWikipedia等であってもよい。サービス提供装置は、所定の対象を解説する解説コンテンツに関する情報を提供する。サービス提供装置は、情報処理装置100からの要求に応じて、所定の対象を解説する解説コンテンツの情報を情報処理装置100に送信する。サービス提供装置は、ユーザ端末からの要求に応じて、所定の対象を解説する解説コンテンツの情報をユーザ端末に送信する。
The
以下、図1を用いて、情報処理の一例を説明する。まず、所定の編集者ED1は、各文字情報にラベルを付与する(ステップS11)。例えば、所定の編集者ED1は、ラベルが付されていない文字情報の内容を確認し、文字情報中で固有表現に該当する文字列に、その文字列が固有表現であることを示すラベルを付すことにより、人手ラベル付き訓練データを生成する。例えば、所定の編集者ED1は、端末装置10を操作して、図2中に示すラベル付きデータである第1文字情報LD1のように、文字情報中の各文字列が該当する種別(属性)を示す情報(ラベル)を正解情報として付与してもよいが、図2の詳細は後述する。
An example of information processing will be described below with reference to FIG. 1. First, a predetermined editor ED1 assigns a label to each piece of character information (step S11). For example, the predetermined editor ED1 checks the content of the unlabeled character information, and generates manually labeled training data by assigning a label indicating that each character string in the character information corresponds to a named entity to the character string, which indicates that the character string is a named entity. For example, the predetermined editor ED1 may operate the
所定の編集者ED1は、各文字情報にラベルを付与が完了した後、端末装置10を操作して、人手ラベル付き訓練データを情報処理装置100へ送信する(ステップS12)。端末装置10は、所定の編集者ED1の操作に応じて、所定の編集者ED1がラベルを付した人手ラベル付き訓練データを情報処理装置100へ送信する。
After the specified editor ED1 has finished labeling each piece of character information, the specified editor ED1 operates the
これにより、情報処理装置100は、人手ラベル付き訓練データを取得する。そして、情報処理装置100は、取得した人手ラベル付き訓練データを第1文字情報として学習用データセットDS1に追加する。具体的には、情報処理装置100は、端末装置10から受信した人手ラベル付き訓練データを学習に用いるデータとして学習用データ記憶部121(図5参照)に登録する。
As a result, the
そして、情報処理装置100は、学習用データセットDS1中の第1文字情報群を用いて、新たな文字情報を生成する処理を行う。図1では、情報処理装置100は、コンテンツから抽出された第2文字情報UD1を対象として、新たな文字情報を生成する処理を行う。ここで、第2文字情報UD1は、ラベルが付されていない文字情報である。例えば、第2文字情報UD1は、図2中に示す第2文字情報UD1のように、所定の対象(図2の例では「X曜日の〇〇」)についての解説が記載されたコンテンツに含まれる文字情報である。なお、第2文字情報UD1の抽出対象となるコンテンツは、インターネット百科事典内で提供されるコンテンツ等の様々なコンテンツであってもよい。第2文字情報UD1には、固有表現の第2文字列として「X曜日の〇〇」が含まれる。なお、X曜日の〇〇と抽象的に示すが、X曜日の〇〇は、実在する固有名詞(固有名称)であり、かつ新たに出現したアーティスト(組織名)を示す新語であるものとする。
Then, the
情報処理装置100は、学習用データセットDS1のうち、第2文字情報UD1に類似する第1文字情報を選択する(ステップS13)。例えば、情報処理装置100は、各文字情報をベクトル化して、ベクトルの類似度を基に、類似文字情報を選択してもよい。この場合、情報処理装置100は、学習用データセットDS1中の各第1文字情報がベクトル化された第1ベクトルの各々と、第2文字情報UD1がベクトル化された第2ベクトルとの類似度に基づいて、類似文字情報を選択する。
The
例えば、情報処理装置100は、第2ベクトルとのコサイン類似度が最大の第1ベクトルに対応する第1文字情報を類似文字情報として選択する。なお、ベクトル間の類似関係は、コサイン類似度に限らず、任意の指標が用いられてもよく、例えば、ユークリッド距離やマハラノビス距離等が用いられてもよい。例えば、情報処理装置100は、文字情報をベクトルに変換するモデルM2を用いて、各文字情報をベクトルに変換する。例えば、情報処理装置100は、word2vec(「w2v」ともいう)に関する種々の技術を用いて学習されたモデルM2を用いて、各文字情報をベクトルに変換する。
For example, the
例えば、情報処理装置100は、第2文字情報UD1中の名詞に対応する各文字列をモデルM2に入力し、モデルM2が出力したベクトルの平均を第2文字情報UD1のベクトル(第2ベクトル)とする。また、情報処理装置100は、第1文字情報LD1中の名詞に対応する各文字列をモデルM2に入力し、モデルM2が出力したベクトルの平均を第1文字情報LD1のベクトル(第1ベクトル)とする。なお、上記は一例に過ぎず、情報処理装置100は、第2文字情報UD1全体をベクトル変換したものを第2ベクトルとし、第1文字情報LD1全体をベクトル変換したものを第1ベクトルとしてもよい。
For example, the
図1では、情報処理装置100は、学習用データセットDS1のうち、第2文字情報UD1との類似度が最大である第1文字情報LD1を類似文字情報として選択する。第1文字情報LD1には、固有表現の第1文字列として「アーティストA」が含まれる。
In FIG. 1, the
なお、アーティストAと抽象的に示すが、アーティストAは、実在する固有名詞(固有名称)であるものとする。また、情報処理装置100は、第2文字情報UD1に類似する第1文字情報がない場合、第2文字情報UD1を処理対象から除外してもよい。例えば、情報処理装置100は、第2文字情報UD1との類似度が所定値以上の第1文字情報がない場合、第2文字情報UD1を処理対象から除外してもよい。
Although artist A is referred to abstractly, artist A is assumed to be an existing proper noun (proper name). Furthermore, if there is no first character information similar to second character information UD1,
そして、情報処理装置100は、類似文字情報中の第1文字列を第2文字列に変換することにより、第2文字列を含み、モデルの学習に利用可能な変更文字情報を生成する(ステップS14)。図1では、情報処理装置100は、第1文字情報LD1中の固有表現「アーティストA」を、第2文字情報UD1中の固有表現「X曜日の〇〇」に変換する。これにより、情報処理装置100は、第1文字情報LD1中の第1文字列である「アーティストA」が第2文字列である「X曜日の〇〇」に変換された変更文字情報CD1を生成する。すなわち、情報処理装置100は、第2文字列である「X曜日の〇〇」を含み、モデルM1の学習に利用可能な変更文字情報CD1を生成する。
Then, the
情報処理装置100は、生成した変更文字情報を第1文字情報として学習に用いるデータに追加する(ステップS15)。図1では、情報処理装置100は、第1文字情報LD1中の第1文字列である「アーティストA」が第2文字列である「X曜日の〇〇」に変換された変更文字情報CD1を学習用データセットDS1に追加する。例えば、情報処理装置100は、「X曜日の〇〇」を含む変更文字情報CD1に、変更文字情報CD1中の「X曜日の〇〇」が固有表現であることを示すラベルを対応付けて、第1文字情報として学習用データ記憶部121に格納する。
The
そして、情報処理装置100は、変更文字情報CD1が追加された学習用データセットDS1を用いて、モデルM1を学習する(ステップS16)。情報処理装置100は、学習用データセットDS1を用いて、モデルM1の重み等のパラメータを学習(更新)する。モデルM1の学習処理には、任意の手法が採用可能である。
Then, the
例えば、情報処理装置100は、モデルM1に入力された文字情報に固有表現が含まれる場合、固有表現を示す情報を出力するようにモデルM1を学習する。例えば、情報処理装置100は、モデルM1に変更文字情報CD1が入力された場合に、モデルM1が文字列「X曜日の〇〇」を出力するようにモデルM1を学習する。例えば、モデルM1は、再帰型ニューラルネットワーク(Recurrent Neural Network:RNN)やRNNを拡張したLSTM(Long Short-Term Memory units)等のネットワークであってもよい。なお、上記は一例に過ぎず、モデルM1は、文字情報から所定の種別の文字列を抽出可能であれば、再帰型ニューラルネットワークに限らず、どのようなネットワーク構成が採用されてもよい。
For example, when the character information input to the model M1 includes a named entity, the
上述したように、情報処理装置100は、既にラベルが付されたデータ(第1文字情報)の第1文字列を他の文字列(第2文字列)に変換して、新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。図1の例では、情報処理装置100は、新語である「X曜日の〇〇」を含む文字情報を学習用データに追加することができるため、固有表現が新語である場合であっても適切に抽出する可能性が高いモデルを学習することができる。このように、学習データ中にこれらのような新語の例が十分に含まれていれば、機械学習モデルがこれら新語に対処できる可能性が上がるため、情報処理システム1では、新語の固有表現が含まれた学習データを生成し、水増しすることにより、新語であっても適切に抽出する可能性が高いモデルを学習することができる。
As described above, the
〔1-1.処理例〕
ここで、図2、3を参照して、図1で説明した内容に関する処理例を説明する。図2は、生成処理の一例を示す図である。図3は、ベクトル変換処理の一例を示す図である。
[1-1. Processing example]
Here, a processing example related to the content described in Fig. 1 will be described with reference to Fig. 2 and Fig. 3. Fig. 2 is a diagram showing an example of a generation process. Fig. 3 is a diagram showing an example of a vector conversion process.
図2に示すように、第2文字情報UD1は、例えばWikipediaなどのインターネット百科事典のコンテンツCTを対象として抽出された文字情報である。新語のような新たに生まれた固有表現については、情報処理システム1では、十分な情報が手元にない場合が多い。そのため、情報処理装置100は、例えばインターネット百科事典に直近(例えば1カ月以内等)で追加されたリンク数の多いエントリーを収集する。これにより、情報処理装置100は、例えばインターネット百科事典内の解説コンテンツを取得する。
As shown in FIG. 2, the second character information UD1 is character information extracted from the content CT of an Internet encyclopedia such as Wikipedia. For newly created named entities such as neologisms, the
そして、情報処理装置100は、解説コンテンツに付けられたタグから、解説コンテンツ中に含まれる文字列のうち固有表現を推定する。例えば、情報処理装置100は、解説コンテンツのHTML(Hyper Text Markup Language)を解析し、各種の情報を推定してもよい。例えば、情報処理装置100は、解説コンテンツのHTMLを解析し、解説コンテンツの見出しの部分を、解説コンテンツが説明する対象であると推定する。
Then, the
また、例えば、情報処理装置100は、解説コンテンツに付されたタグが、音楽ユニット等の組織名等である場合、解説コンテンツの見出しの部分が示す対象が固有表現であると推定する。例えば、情報処理装置100は、解説コンテンツに付されたタグが示すカテゴリが、音楽ユニット等の組織名等である場合、解説コンテンツの見出しの部分が示す対象が固有表現であると推定してもよい。
In addition, for example, when the tag attached to the commentary content is the name of an organization such as a music unit, the
そして、情報処理装置100は、解説コンテンツの見出し部分が示す文字列を第2文字列とし、解説コンテンツ中の見出し部分に続く文章とともに第2文字情報として抽出してもよい。なお、上記は一例に過ぎず、第2文字情報は様々な情報を含む情報であってもよい。また、情報処理装置100は、解析コンテンツから抽出された第2文字情報をサービス提供装置から取得してもよい。
The
例えば、インターネット百科事典のコンテンツCTは、例えば5万エントリー等と多数あり、また収集するコストは低い。一方で、人手ラベル付き訓練データが含まれる学習用データセットDS1については生成するコストが高く、例えば3000個等と少数である。そこで、情報処理装置100は、コンテンツCTと人手ラベル付き訓練データMD1とを用いて、新たな学習用データを自動で生成する。
For example, the content CT of an Internet encyclopedia is large, for example 50,000 entries, and the cost of collecting it is low. On the other hand, the cost of generating a learning data set DS1 that includes manually labeled training data is high, and the number of entries is small, for example 3,000. Therefore, the
例えば、情報処理装置100は、コンテンツCTに含まれる解説コンテンツのうち、説明する対象が新語であるコンテンツ(「新語コンテンツ」ともいう)を選択する。例えば、情報処理装置100は、各解説コンテンツが説明する対象のうち、学習用データセットDS1中の第1文字情報に固有表現として含まれない対象を新語であると推定する。そして、情報処理装置100は、説明する対象が新語であると推定したコンテンツを新語コンテンツとして選択する。情報処理装置100は、新語コンテンツから第2文字情報を生成する。
For example, the
例えば、情報処理装置100は、解説コンテンツの見出し部分が示す文字列(第2文字列)と、解説コンテンツ中の見出し部分に続く文章とを抽出することにより、第2文字情報を生成する。情報処理装置100は、見出しが「X曜日の〇〇」である解説コンテンツから、見出し部分が示す第2文字列「X曜日の〇〇」と、解説コンテンツ中の見出し部分に続く文章とを抽出することにより、第2文字情報UD1を生成する。
For example, the
そして、情報処理装置100は、学習用データセットDS1のうち、第2文字情報UD1に類似する第1文字情報を選択する。例えば、情報処理装置100は、学習用データセットDS1中の各第1文字情報と第2文字情報UD1との各々をベクトル化して、ベクトルの類似度を基に、類似文字情報を選択する。情報処理装置100は、学習用データセットDS1中の各第1文字情報と第2文字情報UD1との各々をベクトル化する。情報処理装置100は、文字情報をベクトルに変換するモデルM2を用いて、各文字情報をベクトルに変換する。
Then, the
図3では、情報処理装置100は、第2文字情報UD1をモデルM2に入力することより、モデルM2に第2文字情報UD1をベクトル化したベクトルVC1を出力させることにより、第2文字情報UD1をベクトルに変換する。また、情報処理装置100は、第1文字情報LD1をモデルM2に入力することより、モデルM2に第1文字情報LD1をベクトル化したベクトルVC2を出力させることにより、第1文字情報LD1をベクトルに変換する。なお、図3では、第1文字情報LD1のみを図示するが、情報処理装置100は、学習用データセットDS1中の各第1文字情報をベクトル化するものとする。
In FIG. 3, the
例えば、情報処理装置100は、第2文字情報UD1のベクトルVC1とのコサイン類似度が最大であるベクトルに対応する第1文字情報を類似文字情報として選択する。図2では、情報処理装置100は、固有表現の第1文字列として「アーティストA」が含まれる第1文字情報LD1を類似文字情報として選択する。このように、情報処理装置100は、学習データ中の文(ベクトル)と最もよく似た説明文(ベクトル)を持つエントリーを対象として、処理を実行する。これにより、情報処理装置100は、元文と関連のないエントリーが選ばれる可能性を抑制することができる。これにより、情報処理装置100は、学習データ中の文と似た説明文を持つエントリーを対象として、処理を実行する。
For example, the
そして、情報処理装置100は、第1文字情報LD1中の固有表現「アーティストA」を、第2文字情報UD1中の固有表現「X曜日の〇〇」に変換する。これにより、情報処理装置100は、第1文字情報LD1中の第1文字列である「アーティストA」が第2文字列である「X曜日の〇〇」に変換された変更文字情報CD1を生成する。図2の例では、情報処理装置100は、固有表現の一例である組織名のラベル部分に「X曜日の〇〇」が配置された変更文字情報CD1を生成する。これにより、情報処理装置100は、自動的(人工的)に作成された新しい学習用データを用いてモデルを学習することができる。
Then, the
なお、上記の処理は一例に過ぎず、情報処理装置100は、変更文字情報を生成可能であれば、どのような処理を行ってもよい。例えば、情報処理装置100は、学習用データセットDS1から一の第1文字情報を選択し、コンテンツCTの中から、選択した第1文字情報(選択第1文字情報)に類似する第2文字情報を選択してもよい。この場合、情報処理装置100は、選択第1文字情報に類似する第2文字情報がない場合、選択第1文字情報を処理対象から除外してもよい。例えば、情報処理装置100は、選択第1文字情報との類似度が所定値以上の第2文字情報がない場合、選択第1文字情報を処理対象から除外してもよい。
Note that the above process is merely an example, and the
〔1-2.その他例〕
上述した処理は一例に過ぎず、情報処理システム1は、様々な処理を行ってもよい。例えば、上述した処理では、固有表現を抽出するモデルを学習する場合を示したが、学習されるモデルは、固有表現を抽出するモデルに限られない。例えば、モデルは、入力された記事等のテキストについて、キーワード抽出して、主題や人工物名等を見つけて、ウィキなどのリンクをはるモデルであってもよい。また、例えば、モデルは、人名、クレジットカードの番号等の個人情報のマスキングするために用いるモデルであってもよい。また、キーワード関連の処理を行うためのモデルであれば、任意のモデルが採用可能である。
[1-2. Other examples]
The above-described process is merely an example, and the
例えば、情報処理システム1は、置換する文字列と類似する文字列を見つけて、置き換えることで学習データを拡張してもよい。例えば、情報処理システム1は、インターネット百科事典でのリンクの類似性が高いコンテンツやインターネット百科事典の記事内容が近いコンテンツを対象としてもよい。例えば、情報処理システム1は、w2vやs2v等のベクトル化に関する任意の技術を用いて、名詞だけベクトル化して、平均化してもよい。また、情報処理システム1は、要約を作ってベクトル化してもよい。
For example, the
例えば、情報処理システム1は、学習データ内の各単語(組織名、人工物等)を、インターネット百科事典の同一ページ内から抽出して組み替えることで、新しい変更文字情報を生成してもよい。また、文字情報は、説明文章が含まれていればよく、訓練データの元と、置き換える元のデータとは違うものであってもよい。また、情報処理システム1は、適用したいカテゴリごとにモデルを作ってもよい。例えば、情報処理システム1は、日本の音楽ユニット等、インターネット百科事典のカテゴリごとに学習用データを生成し、カテゴリごとの学習用データを用いて、カテゴリごとのモデルを生成してもよい。
For example, the
〔2.情報処理装置の構成〕
次に、図4を用いて、実施形態に係る情報処理装置100の構成について説明する。図4は、実施形態に係る情報処理装置100の構成例を示す図である。図4に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
2. Configuration of information processing device
Next, the configuration of the
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、所定の通信網(ネットワーク)と有線または無線で接続され、端末装置10との間で情報の送受信を行う。
(Communication unit 110)
The communication unit 110 is realized by, for example, a network interface card (NIC) etc. The communication unit 110 is connected to a predetermined communication network by wire or wirelessly, and transmits and receives information to and from the
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、図4に示すように、学習用データ記憶部121と、モデル情報記憶部122と、コンテンツ情報記憶部123とを有する。
(Memory unit 120)
The
(学習用データ記憶部121)
実施形態に係る学習用データ記憶部121は、学習に用いるデータに関する各種情報を記憶する。学習用データ記憶部121は、学習に用いる学習データ(データセット)を記憶する。図5は、実施形態に係る学習用データ記憶部の一例を示す図である。例えば、学習用データ記憶部121は、学習に用いる学習データや精度評価(測定)に用いる評価用データ等の種々のデータに関する各種情報を記憶する。図5に、実施形態に係る学習用データ記憶部121の一例を示す。図5の例では、学習用データ記憶部121は、「データセットID」、「データID」、「データ」、「ラベル」、「日時」といった項目が含まれる。
(Learning Data Storage Unit 121)
The learning
「データセットID」は、データセットを識別するための識別情報を示す。「データID」は、データを識別するための識別情報を示す。また、「データ」は、データIDにより識別されるデータに対応するデータを示す。 "Dataset ID" indicates identification information for identifying a dataset. "Data ID" indicates identification information for identifying data. Furthermore, "Data" indicates data corresponding to the data identified by the data ID.
「ラベル」は、対応するデータに付されるラベル(正解ラベル)を示す。例えば、「ラベル」は、対応するデータ(文字情報)中の各文字列がどの種別に該当するかを示す情報(正解情報)であってもよい。例えば、「ラベル」は、文字情報のうち所定の種別に該当する文字列が含まれる位置(範囲)を示す正解情報である。例えば、「ラベル」は、文字情報のうち組織名等の固有名詞(固有表現)に該当する文字列を示す正解情報であってもよい。また、「ラベル」は、人名や地名などといった固有名詞、日付表現、時間表現等の固有表現に該当する文字列を示す正解情報であってもよい。 A "label" refers to a label (correct label) that is attached to the corresponding data. For example, a "label" may be information (correct answer information) that indicates which type each character string in the corresponding data (character information) corresponds to. For example, a "label" is correct answer information that indicates the position (range) in the character information where a character string that corresponds to a specific type is included. For example, a "label" may be correct answer information that indicates a character string in the character information that corresponds to a proper noun (named entity) such as an organization name. In addition, a "label" may be correct answer information that indicates a character string that corresponds to a named entity such as a proper noun such as a person's name or place name, a date expression, or a time expression.
また、「日時」は、対応するデータに関する時間(日時)を示す。なお、図5の例では、「DA1」等で図示するが、「日時」には、「2021年8月12日17時48分37秒」等の具体的な日時であってもよいし、「バージョンXXのモデル学習から使用開始」等、そのデータがどのモデルの学習から使用が開始されたかを示す情報が記憶されてもよい。 In addition, "date and time" indicates the time (date and time) related to the corresponding data. Note that in the example of FIG. 5, "DA1" and the like are illustrated, but "date and time" may be a specific date and time such as "August 12, 2021, 17:48:37", or information indicating which model learning the data started to be used from, such as "Use started from model learning of version XX", may be stored.
図5の例では、データセットID「DS1」により識別されるデータセット(データセットDS1)には、データID「DID1」、「DID2」、「DID3」等により識別される複数のデータが含まれることを示す。例えば、データID「DID1」、「DID2」、「DID3」等により識別される各データ(学習用データ)は、モデルの学習に用いられる文字情報(文字データ)等である。 The example in FIG. 5 shows that the dataset (dataset DS1) identified by the dataset ID "DS1" includes multiple data identified by data IDs "DID1", "DID2", "DID3", etc. For example, each data (learning data) identified by the data IDs "DID1", "DID2", "DID3", etc. is character information (character data) used for model training, etc.
例えば、データID「DID1」により識別されるデータDT1は、ラベルLB1が付されたラベル有りデータであり、日時DA1でのモデルの学習から使用が開始されたことを示す。また、例えば、データID「DID4」により識別されるデータDT4は、ラベル無しデータとして取集され、予測ラベルであるラベルLB4が付されたデータであり、日時DA4でのモデルの学習から使用が開始されたことを示す。 For example, data DT1 identified by data ID "DID1" is labeled data with label LB1, indicating that its use began with model training at date and time DA1. Furthermore, for example, data DT4 identified by data ID "DID4" is unlabeled data collected and with label LB4, which is a predictive label, indicating that its use began with model training at date and time DA4.
なお、学習用データ記憶部121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、学習用データ記憶部121は、各データが学習用データであるか、評価用データであるか等を特定可能に記憶してもよい。例えば、学習用データ記憶部121は、学習用データと評価用データとを区別可能に記憶する。学習用データ記憶部121は、各データが学習用データや評価用データであるかを識別する情報を記憶してもよい。情報処理装置100は、学習用データとして用いられる各データと正解情報とに基づいて、モデルを学習する。情報処理装置100は、評価用データとして用いられる各データと正解情報とに基づいて、モデルの精度を算出する。情報処理装置100は、評価用データを入力した場合にモデルが出力する出力結果と、正解情報とを比較した結果を収集することにより、モデルの精度を算出する。
The learning
(モデル情報記憶部122)
実施形態に係るモデル情報記憶部122は、モデルに関する情報を記憶する。例えば、モデル情報記憶部122は、学習処理により学習(生成)された学習済みモデル(モデル)の情報(モデルデータ)を記憶する。図6は、実施形態に係るモデル情報記憶部の一例を示す図である。図6に示した例では、モデル情報記憶部122は、「モデルID」、「用途」、「モデルデータ」といった項目が含まれる。
(Model information storage unit 122)
The model
「モデルID」は、モデルを識別するための識別情報を示す。「用途」は、対応するモデルの用途を示す。「モデルデータ」は、モデルのデータを示す。図6等では「モデルデータ」に「MDT1」といった概念的な情報が格納される例を示したが、実際には、モデルの構成(ネットワーク構成)の情報やパラメータに関する情報等、そのモデルを構成する種々の情報が含まれる。例えば、「モデルデータ」には、ネットワークの各層におけるノードと、各ノードが採用する関数と、ノードの接続関係と、ノード間の接続に対して設定される接続係数とを含む情報が含まれる。 "Model ID" indicates identification information for identifying a model. "Use" indicates the use of the corresponding model. "Model data" indicates the data of the model. Figure 6 etc. shows an example in which conceptual information such as "MDT1" is stored in "model data", but in reality, various information that constitutes the model is included, such as information on the model configuration (network configuration) and information on parameters. For example, "model data" includes information including the nodes in each layer of the network, the functions employed by each node, the connection relationships between the nodes, and the connection coefficients set for the connections between the nodes.
図6に示す例では、モデルID「M1」により識別されるモデル(モデルM1)は、用途が「固有表現抽出」であることを示す。すなわち、モデルM1は、入力された文字情報中で固有表現に該当する文字列を示す情報(文字列等)を出力するモデルであることを示す。また、モデルM1のモデルデータは、モデルデータMDT1であることを示す。 In the example shown in FIG. 6, the model identified by the model ID "M1" (model M1) indicates that its use is "named entity extraction." In other words, model M1 indicates that it is a model that outputs information (such as a character string) that indicates a character string that corresponds to a named entity in input character information. In addition, it indicates that the model data of model M1 is model data MDT1.
また、モデルID「M2」により識別されるモデル(モデルM2)は、用途が「ベクトル変換」であることを示す。すなわち、モデルM2は、入力された情報(例えば文字情報)をベクトル変換したベクトルを出力するモデルであることを示す。モデルM2のモデルデータは、モデルデータMDT2であることを示す。 The model (model M2) identified by the model ID "M2" indicates that its use is "vector conversion." In other words, model M2 indicates that it is a model that outputs vectors obtained by vector-converting input information (e.g., character information). The model data of model M2 indicates that it is model data MDT2.
なお、モデル情報記憶部122は、上記に限らず、目的に応じて種々の情報を記憶してもよい。
The model
(コンテンツ情報記憶部123)
実施形態に係るコンテンツ情報記憶部123は、コンテンツに関する各種情報を記憶する。例えば、コンテンツ情報記憶部123は、第2文字情報の抽出対象となるコンテンツに関する各種情報を記憶する。例えば、コンテンツ情報記憶部123は、インターネット上で提供される所定のコンテンツの情報を記憶する。例えば、コンテンツ情報記憶部123は、所定の対象を解説する解説コンテンツの情報を記憶する。例えば、コンテンツ情報記憶部123は、インターネット百科事典内のコンテンツの情報を記憶する。例えば、コンテンツ情報記憶部123は、インターネット百科事典に関するサービスをユーザに提供するサービス提供装置から受信したコンテンツの情報を記憶する。
(Content information storage unit 123)
The content information storage unit 123 according to the embodiment stores various information related to the content. For example, the content information storage unit 123 stores various information related to the content from which the second character information is extracted. For example, the content information storage unit 123 stores information on a specific content provided on the Internet. For example, the content information storage unit 123 stores information on an explanation content that explains a specific subject. For example, the content information storage unit 123 stores information on a content in an Internet encyclopedia. For example, the content information storage unit 123 stores information on a content received from a service providing device that provides a user with a service related to the Internet encyclopedia.
コンテンツ情報記憶部123は、所定のコンテンツから抽出された第2文字情報を記憶する。コンテンツ情報記憶部123は、インターネット上で提供される所定のコンテンツから抽出された第2文字情報を記憶する。コンテンツ情報記憶部123は、所定の対象を解説する解説コンテンツから抽出された第2文字情報を記憶する。コンテンツ情報記憶部123は、第1文字列が示す対象とは異なる対象を解説する解説コンテンツから抽出された第2文字情報を記憶する。コンテンツ情報記憶部123は、インターネット百科事典内のコンテンツから抽出された第2文字情報を記憶する。 The content information storage unit 123 stores second character information extracted from specified content. The content information storage unit 123 stores second character information extracted from specified content provided on the Internet. The content information storage unit 123 stores second character information extracted from commentary content that explains a specified subject. The content information storage unit 123 stores second character information extracted from commentary content that explains a subject different from the subject indicated by the first character string. The content information storage unit 123 stores second character information extracted from content in an Internet encyclopedia.
なお、上記は一例に過ぎず、コンテンツ情報記憶部123は、様々なコンテンツ等の情報を記憶してもよい。 Note that the above is merely an example, and the content information storage unit 123 may store information on various contents, etc.
(制御部130)
図4の説明に戻って、制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
(Control unit 130)
Returning to the explanation of Fig. 4, the control unit 130 is a controller, and is realized, for example, by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like, executing various programs (corresponding to an example of an information processing program) stored in a storage device inside the
図4に示すように、制御部130は、取得部131と、生成部132と、学習部133と、処理部134と、提供部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図4に示した接続関係に限られず、他の接続関係であってもよい。
As shown in FIG. 4, the control unit 130 has an acquisition unit 131, a generation unit 132, a
(取得部131)
取得部131は、通信部110を介して、外部の情報処理装置から各種情報を受信する。取得部131は、端末装置10から各種情報を受信する。取得部131は、端末装置10から受信したラベル付きの訓練データ(文字情報)を学習用データとして記憶部120へ格納する。取得部131は、端末装置10から受信したラベル付き文字情報を、モデルの学習に用いるデータ(学習データ)として学習用データ記憶部121に登録する。また、取得部131は、インターネット百科事典に関するサービスをユーザに提供するサービス提供装置からコンテンツの情報を受信する。取得部131は、サービス提供装置から第2文字情報を受信してもよい。
(Acquisition unit 131)
The acquisition unit 131 receives various information from an external information processing device via the communication unit 110. The acquisition unit 131 receives various information from the
取得部131は、記憶部120から各種の情報を取得する。取得部131は、学習用データ記憶部121から学習に用いるデータを取得する。取得部131は、モデル情報記憶部122からモデルの情報を取得する。
The acquisition unit 131 acquires various types of information from the
取得部131は、所定のコンテンツから抽出された第2文字情報を取得する。取得部131は、インターネット上で提供される所定のコンテンツから抽出された第2文字情報を取得する。取得部131は、所定の対象を解説する解説コンテンツから抽出された第2文字情報を取得する。取得部131は、第1文字列が示す対象とは異なる対象を解説する解説コンテンツから抽出された第2文字情報を取得する。取得部131は、インターネット百科事典内のコンテンツから抽出された第2文字情報を取得する。 The acquisition unit 131 acquires second character information extracted from specified content. The acquisition unit 131 acquires second character information extracted from specified content provided on the Internet. The acquisition unit 131 acquires second character information extracted from commentary content that explains a specified object. The acquisition unit 131 acquires second character information extracted from commentary content that explains an object different from the object indicated by the first character string. The acquisition unit 131 acquires second character information extracted from content in an Internet encyclopedia.
(生成部132)
生成部132は、各種情報を生成する。例えば、生成部132は、記憶部120に記憶された情報(データ)から各種情報(データ)を生成する。生成部132は、生成した情報を記憶部120に登録する。例えば、生成部132は、学習用データ記憶部121や、モデル情報記憶部122や、コンテンツ情報記憶部123等に記憶された情報(データ)から各種情報を生成する。
(Generation unit 132)
The generation unit 132 generates various information. For example, the generation unit 132 generates various information (data) from information (data) stored in the
生成部132は、各種情報を選択する。生成部132は、学習用データセットから、所定の条件を満たす文字情報を選択する。生成部132は、学習用データセットから、第2文字情報との類似度に基づいて類似文字情報を選択する。生成部132は、学習用データセットのうち、第2文字情報との類似度が最大である第1文字情報を類似文字情報として選択する。生成部132は、学習用データセット中の各第1文字情報がベクトル化された第1ベクトルの各々と、第2文字情報がベクトル化された第2ベクトルとの類似度に基づいて、類似文字情報を選択する。 The generation unit 132 selects various information. The generation unit 132 selects character information that satisfies a predetermined condition from the training dataset. The generation unit 132 selects similar character information from the training dataset based on the similarity with the second character information. The generation unit 132 selects, from the training dataset, first character information that has the greatest similarity with the second character information as similar character information. The generation unit 132 selects similar character information based on the similarity between each of first vectors obtained by vectorizing each piece of first character information in the training dataset and a second vector obtained by vectorizing the second character information.
生成部132は、各種情報を推定する。生成部132は、文字情報に含まれる文字列のうち新語を推定する。例えば、生成部132は、各解説コンテンツが説明する対象のうち、学習用データセットDS1中の第1文字情報に固有表現として含まれない対象を新語であると推定する。そして、生成部132は、説明する対象が新語であると推定したコンテンツを新語コンテンツとして選択する。生成部132は、新語コンテンツから第2文字情報を生成する。 The generation unit 132 estimates various information. The generation unit 132 estimates new words from character strings included in the character information. For example, the generation unit 132 estimates that, among the objects explained by each explanatory content, an object that is not included as a named entity in the first character information in the learning dataset DS1 is a new word. The generation unit 132 then selects the content in which the object to be explained is estimated to be a new word as new word content. The generation unit 132 generates second character information from the new word content.
生成部132は、類似文字情報中の第1文字列を、第2文字情報中の第2文字列に変更することにより、変更文字情報を生成する。生成部132は、第1文字列が所定の種別に該当することを示す種別ラベルを第2文字列の種別ラベルとする変更文字情報を生成する。生成部132は、類似文字情報中の固有表現である第1文字列を、第2文字情報中の固有表現である第2文字列に変更することにより、変更文字情報を生成する。 The generating unit 132 generates changed character information by changing a first character string in the similar character information to a second character string in the second character information. The generating unit 132 generates changed character information in which a type label indicating that the first character string corresponds to a predetermined type is set as a type label of the second character string. The generating unit 132 generates changed character information by changing a first character string that is a named entity in the similar character information to a second character string that is a named entity in the second character information.
(学習部133)
学習部133は、モデルを学習する。学習部133は、外部の情報処理装置からの情報や記憶部120に記憶された情報に基づいて、各種情報を学習する。学習部133は、学習用データ記憶部121に記憶された情報に基づいて、各種情報を学習する。学習部133は、学習により生成したモデルをモデル情報記憶部122に格納する。
(Learning Unit 133)
The
学習部133は、生成部132が生成した文字情報を含む学習用データを用いてモデルを学習する。学習部133は、生成部132により生成された変更文字情報を用いた機械学習の処理により、モデルを学習する。学習部133は、文字情報の入力に応じて、当該文字情報に抽出対象文字列が含まれる場合、抽出対象文字列を出力するモデルを学習する。学習部133は、変更文字情報から第2文字列が抽出されるようにモデルを学習する。
The
学習部133は、学習処理を行う。学習部133は、各種学習を行う。学習部133は、取得部131により取得された情報に基づいて、各種情報を学習する。学習部133は、モデルを学習(生成)する。学習部133は、モデル等の各種情報を学習する。学習部133は、学習によりモデルを生成する。学習部133は、種々の機械学習に関する技術を用いて、モデルを学習する。例えば、学習部133は、モデル(ネットワーク)のパラメータを学習する。学習部133は、種々の機械学習に関する技術を用いて、モデルを学習する。
The
学習部133は、学習用データ記憶部121に記憶された学習用データ(教師データ)に基づいて、学習処理を行う。学習部133は、モデル(ネットワーク)のパラメータを学習する。学習部133は、接続されたノード間の接続係数(重み)等のパラメータを学習する。学習部133は、種々の機械学習に関する技術を用いて、モデルを学習する。学習部133は、モデルに入力するデータと、そのデータが入力された場合の出力を示す正解データとを用いて行う学習処理、すなわち教師有り学習の手法によりモデルのパラメータを学習する。なお、上記は一例であり、学習部133は、モデルのパラメータを学習可能であれば、どのような学習処理により、モデルのパラメータを学習してもよい。
The
学習部133は、モデルM1を生成する。学習部133は、ネットワークのパラメータを学習する。例えば、学習部133は、モデルM1のネットワークのパラメータを学習する。学習部133は、学習用データ記憶部121に記憶された学習用データを用いて、学習処理を行うことにより、モデルM1を生成する。例えば、学習部133は、固有表現抽出に用いられるモデルを生成する。学習部133は、モデルM1のネットワークのパラメータを学習することにより、モデルM1を生成する。
The
学習部133による学習の手法は特に限定されないが、例えば、ラベルとデータ(文字情報)とを紐づけた学習用データを用意し、その学習用データを多層ニューラルネットワークに基づいた計算モデルに入力して学習してもよい。学習部133は、再帰型ニューラルネットワーク(RNN)やRNNを拡張したLSTMに基づく手法を用いてもよい。
The method of learning by the
例えば、学習部133は、Seq2Seq(Sequence to Sequence Model)であるモデルM1を学習してもよい。例えば、Seq2Seqは、RNNの一種であるLSTMを構成要素とするEncoder-Decoderモデルである。例えば、モデルM1は、図2の第2文字情報UD1に対応する文字情報が入力された場合、「X曜日の〇〇」という文字列を出力する。このように、Seq2SeqであるモデルM1は、第2文字情報UD1に対応する文字情報が入力されるEncoder側でベクトル化を行い、Decoder側で「X曜日の〇〇」を出力するようにRNNの学習を行う。
For example, the
(処理部134)
処理部134は、各種の処理を実行する。処理部134は、学習部133により学習されたモデルM1を用いた処理を実行する。処理部134は、文字情報をモデルM1に入力し、モデルM1が出力した文字列を固有表現の文字列とする。例えば、処理部134は、文字情報をモデルM1に入力し、モデルM1が出力した文字列を新語であるとする。
(Processing Unit 134)
The processing unit 134 executes various processes. The processing unit 134 executes processes using the model M1 learned by the
処理部134は、文字情報をモデルM1に入力し、モデルM1が出力した文字列を固有表現の文字列を示す情報を外部装置へ提供部135に送信させる。 The processing unit 134 inputs the character information into the model M1, and causes the providing unit 135 to transmit the character string output by the model M1, which is information indicating the character string of the named entity, to an external device.
(提供部135)
提供部135は、通信部110を介して、外部装置へ情報を送信する。提供部135は、ユーザが利用する端末装置10へ情報提供サービスを提供する。例えば、提供部135は、学習部133により学習されたモデルM1を端末装置10へ送信する。提供部135は、処理部134による処理結果を示す情報を端末装置10へ送信する。
(Providing Unit 135)
The providing unit 135 transmits information to an external device via the communication unit 110. The providing unit 135 provides an information provision service to the
提供部135は、処理部134による処理結果を示す情報を提供する。提供部135は、新語を示す情報を端末装置10に送信する。提供部135は、固有表現を示す情報を端末装置10に送信する。
The providing unit 135 provides information indicating the processing result by the processing unit 134. The providing unit 135 transmits information indicating the new word to the
〔3.処理フロー〕
次に、図7を用いて、実施形態に係る情報処理システム1による情報処理の手順について説明する。図7は、実施形態に係る情報処理装置による処理の一例を示すフローチャートである。
3. Processing flow
Next, a procedure of information processing by the
図7に示すように、情報処理装置100は、所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第1文字情報を含む学習用データセット文字情報を取得する(ステップS101)。
As shown in FIG. 7, the
情報処理装置100は、ラベルが付されていない文字情報である第2文字情報を取得する(ステップS102)。情報処理装置100は、学習用データセットのうち、第2文字情報と類似する第1文字情報を類似文字情報として選択する(ステップS103)。
The
情報処理装置100は、類似文字情報中の抽出対象文字列である第1文字列を、第2文字情報中の抽出対象文字列である第2文字列に変更することにより、第2文字列を含み、モデルの学習に利用可能な変更文字情報を生成する(ステップS104)。
The
〔4.効果〕
上述してきたように、実施形態に係る情報処理装置100は、取得部131と、生成部132とを有する。取得部131は、所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第1文字情報を含む学習用データセットと、ラベルが付されていない文字情報である第2文字情報とを取得する。生成部132は、学習用データセットのうち、第2文字情報と類似する第1文字情報を類似文字情報として選択し、類似文字情報中の抽出対象文字列である第1文字列を、第2文字情報中の抽出対象文字列である第2文字列に変更することにより、第2文字列を含み、モデルの学習に利用可能な文字情報である変更文字情報を生成する。
4. Effects
As described above, the
このように、実施形態に係る情報処理装置100は、既存の学習用データに含まれる文字情報の文字列を変換することで新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
In this way, the
また、実施形態に係る情報処理装置100において、取得部131は、所定のコンテンツから抽出された第2文字情報を取得する。
In addition, in the
このように、実施形態に係る情報処理装置100は、所定のコンテンツから抽出された第2文字情報の第2文字列に第1文字情報の第1文字列を変換して新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
In this way, the
また、実施形態に係る情報処理装置100において、取得部131は、インターネット上で提供される所定のコンテンツから抽出された第2文字情報を取得する。
In addition, in the
このように、実施形態に係る情報処理装置100は、インターネット上で提供される所定のコンテンツから抽出された第2文字情報の第2文字列に第1文字情報の第1文字列を変換して新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
In this way, the
また、実施形態に係る情報処理装置100において、取得部131は、所定の対象を解説する解説コンテンツから抽出された第2文字情報を取得する。
In addition, in the
このように、実施形態に係る情報処理装置100は、所定の対象を解説する解説コンテンツから抽出された第2文字情報の第2文字列に第1文字情報の第1文字列を変換して新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
In this way, the
また、実施形態に係る情報処理装置100において、取得部131は、第1文字列が示す対象とは異なる対象を解説する解説コンテンツから抽出された第2文字情報を取得する。
In addition, in the
このように、実施形態に係る情報処理装置100は、第1文字列が示す対象とは異なる対象を解説する解説コンテンツから抽出された第2文字情報の第2文字列に第1文字情報の第1文字列を変換して新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
In this way, the
また、実施形態に係る情報処理装置100において、取得部131は、インターネット百科事典内のコンテンツから抽出された第2文字情報を取得する。
In addition, in the
このように、実施形態に係る情報処理装置100は、インターネット百科事典内のコンテンツから抽出された第2文字情報の第2文字列に第1文字情報の第1文字列を変換して新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
In this way, the
また、実施形態に係る情報処理装置100において、生成部132は、学習用データセットから、第2文字情報との類似度に基づいて類似文字情報を選択し、類似文字情報中の第1文字列を、第2文字情報中の第2文字列に変更することにより、変更文字情報を生成する。
In addition, in the
このように、実施形態に係る情報処理装置100は、学習用データセットから、第2文字情報との類似度に基づいて類似文字情報を選択して、選択した類似文字情報を用いて変更文字情報を生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
In this way, the
また、実施形態に係る情報処理装置100において、生成部132は、学習用データセットのうち、第2文字情報との類似度が最大である第1文字情報を類似文字情報として選択する。
In addition, in the
このように、実施形態に係る情報処理装置100は、学習用データセットのうち第2文字情報との類似度が最大である第1文字情報を用いて変更文字情報を生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
In this way, the
また、実施形態に係る情報処理装置100において、生成部132は、学習用データセット中の各第1文字情報がベクトル化された第1ベクトルの各々と、第2文字情報がベクトル化された第2ベクトルとの類似度に基づいて、類似文字情報を選択する。
In addition, in the
このように、実施形態に係る情報処理装置100は、学習用データセットのうちベクトル化した状態で第2文字情報と類似する第1文字情報を用いて変更文字情報を生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
In this way, the
また、実施形態に係る情報処理装置100において、生成部132は、第1文字列が所定の種別に該当することを示す種別ラベルを第2文字列の種別ラベルとする変更文字情報を生成する。
In addition, in the
このように、実施形態に係る情報処理装置100は、学習用データセットから、第1文字列のラベルを第2文字列のラベルとして用いることで、自動的に第2文字列にラベルが付与されるため、モデルの学習に利用可能な文字情報を効率的に生成することができる。
In this way, the
また、実施形態に係る情報処理装置100において、取得部131は、固有表現に該当する抽出対象文字列を文字情報から抽出するモデルの学習に用いられる学習用データセットを取得する。生成部132は、類似文字情報中の固有表現である第1文字列を、第2文字情報中の固有表現である第2文字列に変更することにより、変更文字情報を生成する。
In the
このように、実施形態に係る情報処理装置100は、文字情報中の固有表現を他の固有表現に変換することで、新たな学習用データを生成することにより、固有表現を抽出するモデルの学習に利用可能な文字情報を効率的に生成することができる。
In this way, the
また、実施形態に係る情報処理装置100は、学習部133を有する。学習部133は、生成部132により生成された変更文字情報を用いた機械学習の処理により、モデルを学習する。
The
これにより、実施形態に係る情報処理装置100は、変更文字情報を用いた機械学習の処理により、モデルを学習することより、生成した情報を用いて適切にモデルを学習することができる。
As a result, the
また、実施形態に係る情報処理装置100において、学習部133は、文字情報の入力に応じて、当該文字情報に抽出対象文字列が含まれる場合、抽出対象文字列を出力するモデルを学習する。
In addition, in the
これにより、実施形態に係る情報処理装置100は、生成した情報を用いて抽出対象文字列を出力するモデルを学習することができる。
As a result, the
また、実施形態に係る情報処理装置100において、学習部133は、変更文字情報から第2文字列が抽出されるようにモデルを学習する。
In addition, in the
これにより、実施形態に係る情報処理装置100は、生成した情報を用いて抽出対象文字列を出力するモデルを学習することができる。
As a result, the
〔5.ハードウェア構成〕
また、上述した実施形態に係る情報処理装置100や端末装置10は、例えば図8に示すような構成のコンピュータ1000によって実現される。以下、情報処理装置100を例に挙げて説明する。図8は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力I/F(Interface)1060、入力I/F1070、ネットワークI/F1080がバス1090により接続された形態を有する。
5. Hardware Configuration
The
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。演算装置1030は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等により実現される。 The arithmetic device 1030 operates based on programs stored in the primary storage device 1040 and the secondary storage device 1050, programs read from the input device 1020, and the like, and executes various processes. The arithmetic device 1030 is realized, for example, by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), an ASIC (Application Specific Integrated Circuit), an FPGA (Field Programmable Gate Array), or the like.
一次記憶装置1040は、RAM(Random Access Memory)等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等により実現される。二次記憶装置1050は、内蔵ストレージであってもよいし、外付けストレージであってもよい。また、二次記憶装置1050は、USBメモリやSD(Secure Digital)メモリカード等の取り外し可能な記憶媒体であってもよい。また、二次記憶装置1050は、クラウドストレージ(オンラインストレージ)やNAS(Network Attached Storage)、ファイルサーバ等であってもよい。 The primary storage device 1040 is a memory device such as a RAM (Random Access Memory) that primarily stores data used by the arithmetic device 1030 for various calculations. The secondary storage device 1050 is a storage device in which data used by the arithmetic device 1030 for various calculations and various databases are registered, and is realized by a ROM (Read Only Memory), a HDD (Hard Disk Drive), a SSD (Solid State Drive), a flash memory, or the like. The secondary storage device 1050 may be an internal storage device or an external storage device. The secondary storage device 1050 may be a removable storage medium such as a USB memory or a SD (Secure Digital) memory card. The secondary storage device 1050 may be a cloud storage device (online storage device), a NAS (Network Attached Storage), a file server, or the like.
出力I/F1060は、ディスプレイ、プロジェクタ、及びプリンタ等といった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインターフェイスであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力I/F1070は、マウス、キーボード、キーパッド、ボタン、及びスキャナ等といった各種の入力装置1020から情報を受信するためのインターフェイスであり、例えば、USB等により実現される。
The output I/
また、出力I/F1060及び入力I/F1070はそれぞれ出力装置1010及び入力装置1020と無線で接続してもよい。すなわち、出力装置1010及び入力装置1020は、ワイヤレス機器であってもよい。
In addition, the output I/
また、出力装置1010及び入力装置1020は、タッチパネルのように一体化していてもよい。この場合、出力I/F1060及び入力I/F1070も、入出力I/Fとして一体化していてもよい。
The output device 1010 and the input device 1020 may be integrated together, such as a touch panel. In this case, the output I/
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、又は半導体メモリ等から情報を読み出す装置であってもよい。 The input device 1020 may be a device that reads information from, for example, an optical recording medium such as a CD (Compact Disc), a DVD (Digital Versatile Disc), or a PD (Phase change rewritable Disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.
ネットワークI/F1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。 The network I/F 1080 receives data from other devices via the network N and sends it to the computing device 1030, and also transmits data generated by the computing device 1030 to other devices via the network N.
演算装置1030は、出力I/F1060や入力I/F1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
The arithmetic unit 1030 controls the output device 1010 and the input device 1020 via the output I/
例えば、コンピュータ1000が情報処理装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、コンピュータ1000の演算装置1030は、ネットワークI/F1080を介して他の機器から取得したプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行してもよい。また、コンピュータ1000の演算装置1030は、ネットワークI/F1080を介して他の機器と連携し、プログラムの機能やデータ等を他の機器の他のプログラムから呼び出して利用してもよい。
For example, when the computer 1000 functions as the
〔6.その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
[6. Other]
Although the embodiments of the present application have been described above, the present invention is not limited to the contents of these embodiments. The above-described components include those that a person skilled in the art can easily imagine, those that are substantially the same, and those that are within the so-called equivalent range. Furthermore, the above-described components can be appropriately combined. Furthermore, various omissions, substitutions, or modifications of the components can be made without departing from the spirit of the above-described embodiments.
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。 Furthermore, among the processes described in the above embodiments, all or part of the processes described as being performed automatically can be performed manually, or all or part of the processes described as being performed manually can be performed automatically using known methods. In addition, the information including the processing procedures, specific names, various data, and parameters shown in the above documents and drawings can be changed as desired unless otherwise specified. For example, the various information shown in each drawing is not limited to the information shown in the drawings.
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。 In addition, each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. In other words, the specific form of distribution and integration of each device is not limited to that shown in the figure, and all or part of them can be functionally or physically distributed and integrated in any unit depending on various loads, usage conditions, etc.
例えば、上述した情報処理装置100は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットホーム等をAPI(Application Programming Interface)やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。
For example, the
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 The above-described embodiments and variations can be combined as appropriate to the extent that they do not cause inconsistencies in the processing content.
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。 The above-mentioned "section, module, unit" can be read as "means" or "circuit." For example, an acquisition unit can be read as an acquisition means or an acquisition circuit.
1 情報処理システム
100 情報処理装置
120 記憶部
121 学習用データ記憶部
122 モデル情報記憶部
123 コンテンツ情報記憶部
130 制御部
131 取得部
132 生成部
133 学習部
134 処理部
135 提供部
10 端末装置
REFERENCE SIGNS
Claims (16)
前記学習用データセットのうち、前記第2文字情報と類似する前記第1文字情報を類似文字情報として選択し、前記第2文字情報中の前記抽出対象文字列である前記所定の対象の固有表現を第2文字列として特定し、前記類似文字情報中の前記抽出対象文字列である第1文字列を、前記第2文字列に変更することにより、前記第2文字列を含み、前記モデルの学習に利用可能な文字情報である変更文字情報を生成する生成部と、
を備えることを特徴とする情報処理装置。 an acquisition unit that acquires a learning dataset including first character information labeled with a label for use in learning a model that extracts an extraction target string, which is a string corresponding to a predetermined type, from character information, and second character information that is character information without the label and, when the predetermined type is a named entity, is character information included in content that describes an explanation of a predetermined target corresponding to the named entity ;
a generation unit that selects, from the learning dataset, the first character information similar to the second character information as similar character information , identifies the named entity of the predetermined target that is the extraction target character string in the second character information as the second character string, and generates changed character information that includes the second character string and is character information that can be used for learning the model by changing the first character string that is the extraction target character string in the similar character information to the second character string;
An information processing device comprising:
所定のコンテンツから抽出された前記第2文字情報を取得する
ことを特徴とする請求項1に記載の情報処理装置。 The acquisition unit is
The information processing apparatus according to claim 1 , further comprising: acquiring the second character information extracted from a predetermined content.
インターネット上で提供される前記所定のコンテンツから抽出された前記第2文字情報を取得する
ことを特徴とする請求項2に記載の情報処理装置。 The acquisition unit is
The information processing apparatus according to claim 2 , further comprising: acquiring the second character information extracted from the predetermined content provided on the Internet.
所定の対象を解説する解説コンテンツから抽出された前記第2文字情報を取得する
ことを特徴とする請求項2または請求項3に記載の情報処理装置。 The acquisition unit is
The information processing apparatus according to claim 2 or 3, characterized in that the second character information is acquired by extracting the second character information from an explanation content that explains a predetermined subject.
前記第1文字列が示す対象とは異なる対象を解説する前記解説コンテンツから抽出された前記第2文字情報を取得する
ことを特徴とする請求項4に記載の情報処理装置。 The acquisition unit is
The information processing apparatus according to claim 4 , further comprising: acquiring the second character information extracted from the commentary content that explains an object different from the object indicated by the first character string.
インターネット百科事典内のコンテンツから抽出された前記第2文字情報を取得する
ことを特徴とする請求項2~5のいずれか1項に記載の情報処理装置。 The acquisition unit is
6. The information processing apparatus according to claim 2, further comprising: acquiring the second character information extracted from a content in an Internet encyclopedia.
前記学習用データセットから、前記第2文字情報との類似度に基づいて前記類似文字情報を選択し、前記類似文字情報中の前記第1文字列を、前記第2文字情報中の前記第2文字列に変更することにより、前記変更文字情報を生成する
ことを特徴とする請求項1~6のいずれか1項に記載の情報処理装置。 The generation unit is
The information processing device according to any one of claims 1 to 6, characterized in that the similar character information is selected from the learning dataset based on a similarity to the second character information, and the changed character information is generated by changing the first character string in the similar character information to the second character string in the second character information.
前記学習用データセットのうち、前記第2文字情報との類似度が最大である前記第1文字情報を前記類似文字情報として選択する
ことを特徴とする請求項7に記載の情報処理装置。 The generation unit is
The information processing apparatus according to claim 7 , further comprising: selecting, from the learning data set, the first character information having a maximum similarity to the second character information as the similar character information.
前記学習用データセット中の各第1文字情報がベクトル化された第1ベクトルの各々と、前記第2文字情報がベクトル化された第2ベクトルとの類似度に基づいて、前記類似文字情報を選択する
ことを特徴とする請求項7または請求項8に記載の情報処理装置。 The generation unit is
9. The information processing apparatus according to claim 7, further comprising: selecting the similar character information based on a similarity between each of first vectors obtained by vectorizing each of the first character information in the learning dataset and a second vector obtained by vectorizing the second character information.
前記第1文字列が前記所定の種別に該当することを示す種別ラベルを前記第2文字列の種別ラベルとする前記変更文字情報を生成する
ことを特徴とする請求項1~9のいずれか1項に記載の情報処理装置。 The generation unit is
The information processing device according to any one of claims 1 to 9, characterized in that the changed character information is generated with a type label indicating that the first character string corresponds to the predetermined type as a type label of the second character string.
固有表現に該当する前記抽出対象文字列を文字情報から抽出する前記モデルの学習に用いられる前記学習用データセットを取得し、
前記生成部は、
前記類似文字情報中の固有表現である前記第1文字列を、前記第2文字情報中の固有表現である前記第2文字列に変更することにより、前記変更文字情報を生成する
ことを特徴とする請求項1~10のいずれか1項に記載の情報処理装置。 The acquisition unit is
acquiring the learning dataset used for learning the model that extracts the extraction target character string corresponding to a named entity from character information;
The generation unit is
The information processing device according to any one of claims 1 to 10, characterized in that the changed character information is generated by changing the first character string, which is a unique expression in the similar character information, to the second character string, which is a unique expression in the second character information.
をさらに備える
ことを特徴とする請求項1~11のいずれか1項に記載の情報処理装置。 a learning unit that learns the model by a machine learning process using the changed character information generated by the generation unit;
The information processing device according to any one of claims 1 to 11, further comprising:
文字情報の入力に応じて、当該文字情報に前記抽出対象文字列が含まれる場合、前記抽出対象文字列を出力する前記モデルを学習する
ことを特徴とする請求項12に記載の情報処理装置。 The learning unit is
The information processing apparatus according to claim 12 , further comprising: learning the model to output the extraction target character string when the extraction target character string is included in input character information.
前記変更文字情報から前記第2文字列が抽出されるように前記モデルを学習する
ことを特徴とする請求項13に記載の情報処理装置。 The learning unit is
The information processing apparatus according to claim 13 , further comprising: learning the model so that the second character string is extracted from the changed character information.
所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第1文字情報を含む学習用データセットと、前記ラベルが付されていない文字情報であって、前記所定の種別が固有表現の場合、固有表現に対応する所定の対象についての解説が記載されたコンテンツに含まれる文字情報である第2文字情報とを取得する取得工程と、
前記学習用データセットのうち、前記第2文字情報と類似する前記第1文字情報を類似文字情報として選択し、前記第2文字情報中の前記抽出対象文字列である前記所定の対象の固有表現を第2文字列として特定し、前記類似文字情報中の前記抽出対象文字列である第1文字列を、前記第2文字列に変更することにより、前記第2文字列を含み、前記モデルの学習に利用可能な文字情報である変更文字情報を生成する生成工程と、
を含むことを特徴とする情報処理方法。 1. A computer-implemented information processing method, comprising:
an acquisition step of acquiring a learning dataset including first character information labeled with a label for use in learning a model that extracts an extraction target character string, which is a character string corresponding to a predetermined type, from character information, and second character information that is character information without the label and, when the predetermined type is a named entity, is character information included in content that describes an explanation of a predetermined object corresponding to the named entity;
a generating step of selecting, from the learning dataset, the first character information similar to the second character information as similar character information, identifying the named entity of the predetermined target which is the extraction target character string in the second character information as the second character string, and changing the first character string which is the extraction target character string in the similar character information to the second character string, thereby generating changed character information which includes the second character string and is character information usable for learning the model;
13. An information processing method comprising:
前記学習用データセットのうち、前記第2文字情報と類似する前記第1文字情報を類似文字情報として選択し、前記第2文字情報中の前記抽出対象文字列である前記所定の対象の固有表現を第2文字列として特定し、前記類似文字情報中の前記抽出対象文字列である第1文字列を、前記第2文字列に変更することにより、前記第2文字列を含み、前記モデルの学習に利用可能な文字情報である変更文字情報を生成する生成手順と、
をコンピュータに実行させることを特徴とする情報処理プログラム。
an acquisition step of acquiring a learning dataset including first character information labeled with a label for use in learning a model that extracts an extraction target character string, which is a character string corresponding to a predetermined type, from character information, and second character information that is character information without the label and, when the predetermined type is a named entity, is character information included in content that describes an explanation of a predetermined object corresponding to the named entity;
a generation step of selecting, from the learning dataset, the first character information similar to the second character information as similar character information, identifying the named entity of the predetermined target that is the extraction target character string in the second character information as the second character string, and changing the first character string that is the extraction target character string in the similar character information to the second character string, thereby generating changed character information that includes the second character string and is character information that can be used for learning the model;
An information processing program characterized by causing a computer to execute the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021134681A JP7507733B2 (en) | 2021-08-20 | 2021-08-20 | Information processing device, information processing method, and information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021134681A JP7507733B2 (en) | 2021-08-20 | 2021-08-20 | Information processing device, information processing method, and information processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023028783A JP2023028783A (en) | 2023-03-03 |
JP7507733B2 true JP7507733B2 (en) | 2024-06-28 |
Family
ID=85331195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021134681A Active JP7507733B2 (en) | 2021-08-20 | 2021-08-20 | Information processing device, information processing method, and information processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7507733B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130066818A1 (en) | 2011-09-13 | 2013-03-14 | Exb Asset Management Gmbh | Automatic Crowd Sourcing for Machine Learning in Information Extraction |
JP2013254421A (en) | 2012-06-08 | 2013-12-19 | Nippon Telegr & Teleph Corp <Ntt> | Unique expression type estimation device, method and program |
JP2020106880A (en) | 2018-12-26 | 2020-07-09 | 株式会社Pfu | Information processing apparatus, model generation method and program |
-
2021
- 2021-08-20 JP JP2021134681A patent/JP7507733B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130066818A1 (en) | 2011-09-13 | 2013-03-14 | Exb Asset Management Gmbh | Automatic Crowd Sourcing for Machine Learning in Information Extraction |
JP2013254421A (en) | 2012-06-08 | 2013-12-19 | Nippon Telegr & Teleph Corp <Ntt> | Unique expression type estimation device, method and program |
JP2020106880A (en) | 2018-12-26 | 2020-07-09 | 株式会社Pfu | Information processing apparatus, model generation method and program |
Non-Patent Citations (3)
Title |
---|
大林 弘明,データ拡張を用いた固有表現抽出の精度向上,言語処理学会第25回年次大会 発表論文集 [online],言語処理学会,2019年03月04日,pp.1253~1256,Internet<URL:http://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/P7-3.pdf> |
渡辺 尚吾,商品カテゴリ情報に着目した教師データ収集による商品名抽出手法,2011年度人工知能学会全国大会(第25回)論文集 [CD-ROM] ,社団法人人工知能学会,2011年06月03日,2F3-1 |
赤崎 智,ソーシャルメディアストリームからの新固有表現の発見,一般社団法人 人工知能学会 第32回全国大会論文集DVD [DVD-ROM] 2018年度 人工知能学会全国大会(第32回),(一社)人工知能学会,2018年06月08日,2C2-03 |
Also Published As
Publication number | Publication date |
---|---|
JP2023028783A (en) | 2023-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10904072B2 (en) | System and method for recommending automation solutions for technology infrastructure issues | |
US11847113B2 (en) | Method and system for supporting inductive reasoning queries over multi-modal data from relational databases | |
JP6745384B2 (en) | Method and apparatus for pushing information | |
CN112131393A (en) | Construction method of medical knowledge map question-answering system based on BERT and similarity algorithm | |
US12086548B2 (en) | Event extraction from documents with co-reference | |
US20220100772A1 (en) | Context-sensitive linking of entities to private databases | |
US20180068221A1 (en) | System and Method of Advising Human Verification of Machine-Annotated Ground Truth - High Entropy Focus | |
Gaur et al. | Semi-supervised deep learning based named entity recognition model to parse education section of resumes | |
US20220229984A1 (en) | Systems and methods for semi-supervised extraction of text classification information | |
JP6462970B1 (en) | Classification device, classification method, generation method, classification program, and generation program | |
US11194963B1 (en) | Auditing citations in a textual document | |
US20220100967A1 (en) | Lifecycle management for customized natural language processing | |
BR112021012457A2 (en) | NATURAL SOLUTION LANGUAGE | |
Das et al. | Context-sensitive gender inference of named entities in text | |
CN112805715A (en) | Identifying entity attribute relationships | |
WO2022072237A1 (en) | Lifecycle management for customized natural language processing | |
Fan et al. | Dkgbuilder: An architecture for building a domain knowledge graph from scratch | |
US20220215287A1 (en) | Self-supervised pretraining through text alignment | |
US11422798B2 (en) | Context-based word embedding for programming artifacts | |
JP6775366B2 (en) | Selection device and selection method | |
AU2023203409A1 (en) | Generalizable key-value set extraction from documents using machine learning models | |
US20240028646A1 (en) | Textual similarity model for graph-based metadata | |
JP7507733B2 (en) | Information processing device, information processing method, and information processing program | |
Lamons et al. | Python Deep Learning Projects: 9 projects demystifying neural network and deep learning models for building intelligent systems | |
JP6680655B2 (en) | Learning device and learning method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230315 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20231026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240618 |