JP7440797B2

JP7440797B2 - 機械学習プログラム、機械学習方法および固有表現認識装置

Info

Publication number: JP7440797B2
Application number: JP2022516579A
Authority: JP
Inventors: レアングェン; 一森田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2024-02-29
Anticipated expiration: 2040-04-23
Also published as: US20230044266A1; JPWO2021214941A1; WO2021214941A1

Description

本発明は、機械学習技術に関する。

自然言語処理の１つの技術として、固有表現認識（ＮＥＲ：Named Entity Recognition）がある。固有表現認識を、固有表現抽出と言うこともある。固有表現には、人名、組織名、地名などの固有名詞が含まれる。固有表現認識では、テキストから固有表現が検出され、検出された固有表現のクラスが判定される。固有表現認識の結果は、単語間の関係を判定する関係抽出や、テキスト中の固有表現と知識データベースの情報とをリンクするエンティティ・リンキングなど、他のタスクの入力として使用されることがある。

固有表現認識では、既存の辞書に載っていない未知語に対しても、固有表現であることを認識したいことがある。この状況は、特定の専門分野のテキストから、専門用語である固有表現を検出する場合に生じることがある。例えば、生物医学（バイオメディカル）分野のテキストから、遺伝子名、薬品名、疾患名などの固有表現を検出する固有表現認識が試みられている。生物医学分野では、遺伝子名や薬品名は複合語が多く、既存の専門用語辞書に載っていない新しい遺伝子名や薬品名がテキストに出現することも多い。

未知語に対する固有表現認識の方法として、近似文字列照合（Approximate String Matching）を用いた辞書拡張の技術が提案されている。例えば、辞書に登録された遺伝子名に対して、文字の挿入、削除、置換などの文字列編集を行って別の遺伝子名の候補を生成する技術が提案されている。また、辞書に登録された遺伝子名に対して、所定の前キーワードや後キーワードを追加して別の遺伝子名の候補を生成する技術が提案されている。

また、未知語に対する固有表現認識の方法として、完全一致文字列照合（Exact String Matching）を用いた機械学習モデルの技術が提案されている。例えば、テキストに含まれる単語を分散表現の単語ベクトルに変換し、双方向ＬＳＴＭ（Long Short Term Memory）を含む多層ニューラルネットワークを用いて単語ベクトルから固有表現クラスの確信度を算出する技術が提案されている。この提案の技術では、辞書に登録されている単語については、辞書と完全一致していることを示す補助的情報が、単語ベクトルと合わせて多層ニューラルネットワークに入力される。固有表現クラスの確信度は未知語に対しても算出されるため、未知の固有表現を検出できる可能性がある。

Yoshimasa Tsuruoka and Jun'ichi Tsujii, "Improving the performance of dictionary-based approaches in protein name recognition", Journal of Biomedical Informatics, Volume 37 Issue 6, pp. 461-470, December 2004 Zhihao Yang, Hongfei Lin and Yanpeng Li, "Exploiting the performance of dictionary-based bio-entity name recognition in biomedical literature", Computational Biology and Chemistry, Volume 32 Issue 4, pp. 287-291, August 2008 Alexandre Passos, Vineet Kumar and Andrew McCallum, "Lexicon Infused Phrase Embeddings for Named Entity Resolution", Proc. of the 18th Conference on Computational Natural Language Learning, pp. 78-86, June 2014 Jingjing Xu, Ji Wen, Xu Sun and Qi Su, "A Discourse-Level Named Entity Recognition and Relation Extraction Dataset for Chinese Literature Text", arXiv:1711.07010, 19 November 2017

従来の近似文字列照合を用いた辞書拡張の技術は、所定の拡張ルールに従って、認識可能な固有表現を増やすものである。しかし、所定の拡張ルールに従った辞書拡張では、未知の固有表現を網羅的にカバーできるわけではなく、認識精度の向上に限界がある。また、従来の完全一致文字列照合を用いた機械学習モデルの技術は、辞書に登録された既知の固有表現の認識精度を確保しつつ、未知の固有表現もある程度認識できるようにするものである。しかし、辞書と完全一致している既知の固有表現についての補助的情報を与えるだけでは、未知の固有表現の認識精度の向上には限界がある。

１つの側面では、本発明は、辞書に載っていない未知語に対する固有表現認識の精度を向上させる機械学習プログラム、機械学習方法および固有表現認識装置を提供することを目的とする。

１つの態様では、テキストデータに含まれる文字列を複数のトークンに分割し、複数のトークンのうち連続する特定の個数のトークンを示すトークン列と、複数の固有表現を含む辞書情報との間でマッチング処理を実行して、複数の固有表現のうちトークン列との類似度が閾値以上である類似固有表現を検索し、トークン列と類似固有表現との間のマッチング処理の結果を示すマッチング情報を、第１のベクトルデータに変換し、複数のトークンから変換された複数のベクトルデータと第１のベクトルデータとを用いて入力データを生成し、入力データを用いた機械学習により、固有表現を検出するための固有表現認識モデルを生成する、処理をコンピュータに実行させることを特徴とする機械学習プログラムが提供される。

また、１つの態様では、機械学習方法が提供される。また、１つの態様では、記憶部と制御部とを有することを特徴とする固有表現認識装置が提供される。

１つの側面では、辞書に載っていない未知語に対する固有表現認識の精度が向上する。
本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。

第１の実施の形態の機械学習装置を説明するための図である。第２の実施の形態の固有表現認識装置を説明するための図である。第３の実施の形態の機械学習装置のハードウェア例を示す図である。固有表現認識のデータフロー例を示す図である。固有表現辞書の例を示す図である。マッチングパターン辞書の例を示す図である。マッチングベクトルの生成例を示す図である。固有表現認識結果の例を示す図である。機械学習装置の機能例を示すブロック図である。入力データ生成の手順例を示すフローチャートである。モデル生成の手順例を示すフローチャートである。固有表現認識の手順例を示すフローチャートである。

以下、本実施の形態を、図面を参照して説明する。第１の実施の形態を説明する。図１は、第１の実施の形態の機械学習装置を説明するための図である。機械学習装置１０は、入力されたテキストデータの中から固有表現を検出するための固有表現認識モデルを、機械学習によって生成する。機械学習装置１０は、クライアント装置でもよいしサーバ装置でもよい。機械学習装置１０を、コンピュータまたは情報処理装置と言うこともある。生成された固有表現認識モデルを用いた固有表現認識を、機械学習装置１０が実行してもよいし他の情報処理装置が実行してもよい。

機械学習装置１０は、記憶部１１および制御部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。制御部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、制御部１２は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの特定用途の電子回路を含んでもよい。プロセッサは、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うこともある。

記憶部１１は、テキストデータ１３および辞書情報１４を記憶する。
テキストデータ１３は、自然言語で記述された文章を表す文字列を含む。テキストデータ１３は、例えば、生物医学分野の学術論文など、特定の専門分野の文書である。テキストデータ１３は、機械学習のための訓練データとして使用される。そこで、テキストデータ１３には、固有表現に関する教師ラベルが付与されている。例えば、テキストデータ１３に含まれる固有表現に対して、固有表現であることを示すタグまたは固有表現クラスを示すタグが付与されている。教師ラベルは、例えば、人手によって予め付与される。

辞書情報１４は、既知である複数の固有表現を記載した固有表現辞書である。例えば、辞書情報１４は、遺伝子名、薬品名、疾患名などの専門的な固有表現を含む。辞書情報１４は、各固有表現に対して、その固有表現が属するクラス分類を記載していてもよい。ただし、辞書情報１４は、全ての固有表現を網羅しているとは限らない。テキストデータ１３は、辞書情報１４に記載された固有表現を含むこともあるし、辞書情報１４に記載されていない固有表現を含むこともある。辞書情報１４に記載されていない固有表現を、未知の固有表現または未知語と言うことがある。

制御部１２は、以下のようにして機械学習により固有表現認識モデル１８を生成する。
まず、制御部１２は、テキストデータ１３に含まれる文字列を複数のトークンに分割する。トークンへの分割には、例えば、形態素解析などの自然言語処理技術が用いられる。トークンは、言語上意味のある文字列である。トークンは、単語であることもあるし、単語より小さい言語単位であることもある。固有表現は複合語であることもある。そのため、１つのトークンが１つの固有表現を形成することもあるし、２以上のトークンを含むトークン列が１つの固有表現を形成することもある。

例えば、テキストデータ１３のトークン列（ｗ_３，ｗ_４，ｗ_５）が１つの固有表現を形成している。また、辞書情報１４には、トークン列（ｗ_１，ｗ_２，ｗ’_３）が１つの固有表現として記載され、トークン列（ｗ_３，ｗ’_４）が１つの固有表現として記載されている。

制御部１２は、テキストデータ１３から、連続する特定の個数のトークンを示すトークン列１３ａを抽出する。特定の個数は、例えば、２個以上である。ｎ個のトークンを含むトークン列１３ａを、ｎ－ｇｒａｍと言うことがある。制御部１２は、トークン数ｎが同じ２以上のトークン列やトークン数ｎが異なる２以上のトークン列を、テキストデータ１３から抽出し得る。制御部１２は、トークン列１３ａと辞書情報１４との間でマッチング処理を実行する。マッチング処理では、制御部１２は、辞書情報１４に含まれる複数の固有表現それぞれとトークン列１３ａとを比較する。

マッチング処理では、いわゆる近似文字列照合が行われる。制御部１２は、辞書情報１４に含まれる複数の固有表現のうち、トークン列１３ａとの類似度が閾値以上である固有表現を、類似固有表現１４ａとして検索する。類似度は、例えば、トークン列１３ａと複数の固有表現それぞれとの間で算出される編集距離（レーベンシュタイン距離）の逆数であってもよい。その場合、制御部１２は、トークン列１３ａと複数の固有表現それぞれとの間で編集距離を算出し、編集距離が閾値以下の固有表現を類似固有表現１４ａと判定してもよい。編集距離は、ある固有表現とトークン列１３ａとを一致させるために行うことになる、１文字の追加、１文字の置換または１文字削除の回数である。編集距離は、動的計画法によって算出されてもよい。

トークン列１３ａと類似固有表現１４ａとが、完全一致していることもあるし、類似しているものの完全一致していないこともある。また、トークン列１３ａに対して、２以上の類似固有表現が検索されることもある。一例として、トークン列１３ａが（ｗ_３，ｗ_４）であり、辞書情報１４に含まれるトークン列（ｗ_１，ｗ_２，ｗ’_３）はトークン列１３ａと類似しておらず、辞書情報１４に含まれるトークン列（ｗ_３，ｗ’_４）がトークン列１３ａと類似しているとする。この場合、類似固有表現１４ａが（ｗ_３，ｗ’_４）となる。

制御部１２は、トークン列１３ａと類似固有表現１４ａとの間のマッチング処理の結果を示すマッチング情報を、ベクトルデータ１６に変換する。マッチング情報は、例えば、トークン列１３ａに含まれる各トークンに対して生成される。マッチング情報は、例えば、トークン列１３ａの中での各トークンの相対位置を示す位置情報を含む。また、マッチング情報は、例えば、トークン列１３ａと類似固有表現１４ａとが完全一致したか否かを示す合致度情報を含む。また、マッチング情報は、例えば、類似固有表現１４ａが属する固有表現クラスを示すクラス情報を含む。

ベクトルデータ１６は、複数の次元の数値を並べた数値列である。ベクトルデータ１６は、マッチング情報の分散表現であってもよい。例えば、マッチング情報からベクトルデータ１６への変換は、訓練済みのニューラルネットワークを用いて行われてもよい。ベクトルデータ１６は、１００次元など次元数が大きいものであってもよく、多くの次元の数値は小さく少数の次元の数値が大きいという分布をもっていてもよい。また、類似するマッチング情報が、類似するベクトルデータに変換されてもよい。

制御部１２は、ベクトルデータ１６とは別に、テキストデータ１３に含まれる複数のトークンから変換された複数のベクトルデータを取得する。ここでは、制御部１２は、１つのトークンに対応するベクトルデータ１５を取得する。ベクトルデータ１５は、複数の次元の数値を並べた数値列である。ベクトルデータ１５は、単語の分散表現であってもよい。例えば、トークンからベクトルデータ１５への変換は、訓練済みのニューラルネットワークを用いて行われてもよい。訓練済みのニューラルネットワークは、例えば、ｗｏｒｄ２ｖｅｃでもよい。ベクトルデータ１５は、３００次元など次元数が大きいものであってもよい。また、類似する意味をもつ単語が、類似するベクトルデータに変換されてもよい。

制御部１２は、ベクトルデータ１５とベクトルデータ１６とを用いて、入力データ１７を生成する。例えば、テキストデータ１３の中のトークンｗ_３に対して、ベクトルデータ１５，１６が生成される。すると、制御部１２は、ベクトルデータ１５とベクトルデータ１６とを連結（concatenate）したものを、トークンｗ_３を表すベクトルデータと定義する。ベクトルデータ１５，１６の連結では、例えば、ベクトルデータ１５の後ろにベクトルデータ１６を配置する。その場合、連結後のベクトルデータの次元数は、ベクトルデータ１５の次元数とベクトルデータ１６の次元数の和になる。テキストデータ１３に含まれる各トークンに対して、連結したベクトルデータを生成してもよい。

そして、制御部１２は、入力データ１７を用いた機械学習により固有表現認識モデル１８を生成する。機械学習では、例えば、入力データ１７は説明変数として取り扱われ、テキストデータ１３に付与された教師ラベルは目的変数として取り扱われる。固有表現認識モデル１８は、例えば、複数のトークンに対応する複数のベクトルデータを入力として受け付け、それら複数のトークンそれぞれが属するクラスを出力する。

固有表現認識モデル１８は、トークンが複数のクラスそれぞれに属する可能性を表す確信度を出力してもよい。固有表現認識モデル１８は、多層ニューラルネットワークであってもよい。例えば、制御部１２は、入力データ１７を固有表現認識モデル１８に入力し、固有表現認識モデル１８の出力と教師ラベルとを比較して誤差を算出する。制御部１２は、誤差を小さくする条件に基づいて、固有表現認識モデル１８に含まれるパラメータの値を更新する。パラメータ値の更新には、例えば、誤差逆伝播法が用いられる。

制御部１２は、訓練済みの固有表現認識モデル１８を出力する。例えば、制御部１２は、固有表現認識モデル１８を不揮発性ストレージに保存する。また、例えば、制御部１２は、固有表現認識モデル１８を他の情報処理装置に転送する。また、例えば、制御部１２は、固有表現認識モデル１８についての情報を表示装置に表示する。

第１の実施の形態の機械学習装置１０によれば、テキストデータ１３に含まれるトークン列１３ａと辞書情報１４との間でマッチング処理が行われ、類似度が所定範囲内にある類似固有表現１４ａが検索される。トークン列１３ａと類似固有表現１４ａとの間のマッチング処理の結果を示すマッチング情報が、ベクトルデータ１６に変換される。トークンから変換されたベクトルデータ１５とベクトルデータ１６とを用いて入力データ１７が生成され、入力データ１７を用いた機械学習により固有表現認識モデル１８が生成される。

これにより、辞書情報１４に記載されていない未知の固有表現に対する認識精度を向上させることができる。固有表現認識モデル１８は、トークンから変換されたベクトルデータを入力として用いて固有表現か否か推定する機械学習モデルであるため、辞書情報１４に記載されていない未知の固有表現も検出し得る。また、トークン列１３ａと辞書情報１４との間のマッチング情報を入力として用いるため、辞書情報１４に記載された既知の固有表現を考慮した推定を行うことができる。

また、マッチング処理では、完全一致文字列照合だけでなく近似文字列照合も行われる。よって、既知の固有表現を変形した新しい固有表現についても認識精度を向上させることができる。例えば、生物医学分野の遺伝子名や薬品名は複合語が多く、語尾が変形した類似する固有表現が多数存在する。このような新しい専門的固有表現についても、近似文字列照合の結果を入力として利用することで、固有表現認識モデル１８は、認識精度を向上させることができる。

次に、第２の実施の形態を説明する。図２は、第２の実施の形態の固有表現認識装置を説明するための図である。固有表現認識装置２０は、第１の実施の形態の機械学習装置１０によって生成された固有表現認識モデルを利用して、テキストデータの中から固有表現を検出する。固有表現認識装置２０は、クライアント装置でもよいしサーバ装置でもよい。固有表現認識装置２０を、コンピュータまたは情報処理装置と言うこともある。なお、固有表現認識装置２０が、第１の実施の形態の機械学習装置１０と同一装置であってもよい。

固有表現認識装置２０は、記憶部２１および制御部２２を有する。記憶部２１は、ＲＡＭなどの揮発性半導体メモリでもよいし、ＨＤＤやフラッシュメモリなどの不揮発性ストレージでもよい。制御部２２は、例えば、ＣＰＵ、ＧＰＵ、ＤＳＰなどのプロセッサである。ただし、制御部２２は、ＡＳＩＣやＦＰＧＡなどの特定用途の電子回路を含んでもよい。プロセッサは、ＲＡＭなどのメモリに記憶されたプログラムを実行する。

記憶部２１は、テキストデータ２３、辞書情報２４および固有表現認識モデル２８を記憶する。テキストデータ２３は、自然言語で記述された文章を表す文字列を含む。テキストデータ２３は、第１の実施の形態のテキストデータ１３と異なる文書であってもよい。テキストデータ１３と異なり、テキストデータ２３には教師ラベルが付与されていなくてよい。辞書情報２４は、既知である複数の固有表現を記載した固有表現辞書である。辞書情報２４は、第１の実施の形態の辞書情報１４に対応する。ただし、専門分野が同じであるなど辞書情報１４と同種のものであれば、辞書情報２４が辞書情報１４と同一でなくてもよい。固有表現認識モデル２８は、テキストデータ２３に対応する入力データを受け付け、固有表現の推定結果を出力する機械学習モデルである。固有表現認識モデル２８は、第１の実施の形態の固有表現認識モデル１８に対応する。

制御部２２は、固有表現認識モデル２８を用いて、テキストデータ２３の中から固有表現を検出する。このとき、制御部２２は、固有表現認識モデル２８に入力する入力データ２７を生成する。テキストデータ２３から入力データ２７への変換は、第１の実施の形態のテキストデータ１３から入力データ１７への変換と同様である。

すなわち、制御部２２は、テキストデータ２３に含まれる文字列を複数のトークンに分割し、連続する特定の個数のトークンを示すトークン列２３ａを抽出する。制御部２２は、トークン列２３ａと辞書情報２４との間でマッチング処理を実行して、トークン列２３ａとの類似度が所定範囲内にある類似固有表現２４ａを辞書情報２４から検索する。

制御部２２は、トークン列２３ａと類似固有表現２４ａとの間のマッチング処理の結果を示すマッチング情報を、ベクトルデータ２６（第２のベクトルデータ）に変換する。制御部２２は、テキストデータ２３に含まれるトークンから変換されたベクトルデータ２５（第１のベクトルデータ）とベクトルデータ２６とを用いて、入力データ２７を生成する。例えば、制御部２２は、同一トークンに対するベクトルデータ２５，２６を連結して、当該トークンを表すベクトルデータと定義する。入力データ２７は、例えば、複数のトークンそれぞれに対応するベクトルデータを含む。

制御部２２は、入力データ２７を固有表現認識モデル２８に入力し、固有表現認識モデル２８の出力に基づいて、テキストデータの中から固有表現２９を検出する。例えば、固有表現認識モデル２８は、テキストデータ２３に含まれるトークン列（ｗ_１，ｗ_２，ｗ_３，ｗ_４，ｗ_５，ｗ_６，ｗ_７，…）のうち、トークン列（ｗ_３，ｗ_４，ｗ_５）が固有表現２９であることを示すタグ情報を出力する。固有表現認識モデル２８によって検出される固有表現２９は、辞書情報２４に記載されていない未知語であることもある。

第２の実施の形態の固有表現認識装置２０によれば、辞書情報２４に記載されていない未知の固有表現に対する認識精度が向上する。固有表現認識モデル２８は、トークンから変換されたベクトルデータを入力として用いて固有表現か否か推定する機械学習モデルであるため、辞書情報２４に記載されていない未知の固有表現も検出し得る。また、トークン列２３ａと辞書情報２４との間のマッチング情報を入力として用いるため、辞書情報２４に記載された既知の固有表現を考慮した推定を行うことができる。

また、マッチング処理では、完全一致文字列照合だけでなく近似文字列照合も行われる。よって、既知の固有表現を変形した新しい固有表現についても認識精度を向上させることができる。例えば、生物医学分野の遺伝子名や薬品名は複合語が多く、語尾が変形した類似する固有表現が多数存在する。このような新しい専門的固有表現についても、近似文字列照合の結果を入力として利用することで、認識精度を向上させることができる。

次に、第３の実施の形態を説明する。第３の実施の形態の機械学習装置は、機械学習によって固有表現認識モデルを生成し、生成した固有表現認識モデルを用いて固有表現認識を行う。固有表現認識では、入力されたテキストの中から普通名詞でない固有表現を検出し、検出した固有表現のカテゴリを判定する。第３の実施の形態では、生物医学分野の学術論文をテキストとして処理し、遺伝子名、薬品名、疾患名などの生物医学分野の専門的な固有表現を認識する。機械学習装置は、クライアント装置でもよいしサーバ装置でもよい。機械学習装置を、コンピュータや情報処理装置などと言うこともある。

図３は、第３の実施の形態の機械学習装置のハードウェア例を示す図である。機械学習装置１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、画像インタフェース１０４、入力インタフェース１０５、媒体リーダ１０６および通信インタフェース１０７を有する。機械学習装置１００が有するこれらのユニットは、バスに接続されている。機械学習装置１００は、第１の実施の形態の機械学習装置１０や第２の実施の形態の固有表現認識装置２０に対応する。ＣＰＵ１０１は、第１の実施の形態の制御部１２や第２の実施の形態の制御部２２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１や第２の実施の形態の記憶部２１に対応する。

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムやデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。ＣＰＵ１０１は複数のプロセッサコアを備えてもよく、機械学習装置１００は複数のプロセッサを備えてもよい。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。

ＲＡＭ１０２は、ＣＰＵ１０１が実行するプログラムやＣＰＵ１０１が演算に使用するデータを一時的に記憶する揮発性半導体メモリである。機械学習装置１００は、ＲＡＭ以外の種類のメモリを備えてもよく、複数のメモリを備えてもよい。

ＨＤＤ１０３は、ＯＳ（Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性ストレージである。機械学習装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）など他の種類のストレージを備えてもよく、複数のストレージを備えてもよい。

画像インタフェース１０４は、ＣＰＵ１０１からの命令に従って、機械学習装置１００に接続された表示装置１１１に画像を出力する。表示装置１１１として、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、有機ＥＬ（ＯＥＬ：Organic Electro-Luminescence）ディスプレイ、プロジェクタなど、任意の種類の表示装置を使用することができる。機械学習装置１００に、プリンタなど表示装置１１１以外の出力デバイスが接続されてもよい。

入力インタフェース１０５は、機械学習装置１００に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２として、マウス、タッチパネル、タッチパッド、キーボードなど、任意の種類の入力デバイスを使用することができる。機械学習装置１００に複数種類の入力デバイスが接続されてもよい。

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体１１３として、フレキシブルディスク（ＦＤ：Flexible Disk）やＨＤＤなどの磁気ディスク、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）などの光ディスク、半導体メモリなど、任意の種類の記録媒体を使用することができる。媒体リーダ１０６は、例えば、記録媒体１１３から読み取ったプログラムやデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、例えば、ＣＰＵ１０１によって実行される。なお、記録媒体１１３は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体１１３やＨＤＤ１０３を、コンピュータ読み取り可能な記録媒体と言うことがある。

通信インタフェース１０７は、ネットワーク１１４に接続され、ネットワーク１１４を介して他の情報処理装置と通信する。通信インタフェース１０７は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

次に、第３の実施の形態で使用する固有表現認識モデルについて説明する。図４は、固有表現認識のデータフロー例を示す図である。自然言語で記述されたテキスト１４１が与えられると、機械学習装置１００は、テキスト１４１に含まれる文字列をトークンｗ_１，ｗ_２，ｗ_３，…，ｗ_Ｎに分割する。トークンへの分割には、形態素解析などの自然言語処理技術が用いられる。トークンは、言語上一定の意味をもつ文字列であり、単語（ワード）であることもあるし単語より小さい言語単位であることもある。一回に処理するトークンの個数はＮである。例えば、Ｎ＝２５６である。テキスト１４１が長い場合、複数回に分けて以下の処理が行われる。

機械学習装置１００は、各トークンを分散表現の単語ベクトルに変換することで、トークンｗ_１，ｗ_２，ｗ_３，…，ｗ_Ｎを単語ベクトルＷ_１，Ｗ_２，Ｗ_３，…，Ｗ_Ｎに変換する。単語ベクトルは、所定の次元数の数値を列挙した数値ベクトルである。単語ベクトルの次元数は、例えば、３００次元である。単語ベクトルＷ_１，Ｗ_２，Ｗ_３，…，Ｗ_Ｎは、ｗｏｒｄ２ｖｅｃなどの訓練済みの多層ニューラルネットワークを用いて算出される。この多層ニューラルネットワークは、例えば、以下のような方法で生成される。

テキストに出現し得る単語１つにつき１個のノードを割り当てた入力層と、テキストに出現し得る単語１つにつき１個のノードを割り当てた出力層と、入力層と出力層との間にある中間層とを含む多層ニューラルネットワークを用意する。テキストのサンプルから、ある単語とその単語の前後の所定範囲にある１以上の周辺語とを抽出する。入力データは、ある単語に対応する要素が「１」であり他の単語に対応する要素が「０」であるｏｎｅ－ｈｏｔ表現のベクトルである。教師データは、周辺語に対応する１以上の要素が「１」であり他の単語に対応する要素が「０」であるベクトルである。入力データを入力層に与え、出力層からの出力データと教師データとの間の誤差を算出し、誤差が小さくなるように誤差逆伝播法によってエッジの重みを更新する。

このようにして、分散表現のための多層ニューラルネットワークが生成される。ある単語のｏｎｅ－ｈｏｔ表現のベクトルを入力したときに中間層で算出される数値を列挙した特徴ベクトルが、その単語に対する分散表現の単語ベクトルとなる。類似する意味をもつ単語の周辺には類似する周辺語が現れる可能性が高いことから、類似する意味をもつ単語には類似する単語ベクトルが割り当てられることが多い。

機械学習装置１００は、単語ベクトルＷ_１，Ｗ_２，Ｗ_３，…，Ｗ_Ｎを、ＢｉｏＢＥＲＴ（Bidirectional Encoder Representations from Transformers for Biomedical Text Mining）１４２に入力して、単語ベクトルＴ_１，Ｔ_２，Ｔ_３，…，Ｔ_Ｎに変換する。ＢｉｏＢＥＲＴ１４２は、生物医学分野のテキストを訓練データとして用いて機械学習により生成された、訓練済みの多層ニューラルネットワークである。ＢｉｏＢＥＲＴ１４２は、直列的に重ねられた２４層のTransformerを含む。各Transformerは、入力されたベクトルを別のベクトルに変換する多層ニューラルネットワークである。

ＢｉｏＢＥＲＴ１４２は、例えば、以下のような方法で生成される。まず、ＢｉｏＢＥＲＴ１４２の最終段に予測器を接続する。この予測器は、末尾のTransformerが出力するＮ個のベクトルそれぞれからトークンを予測するものである。サンプルのテキストから連続するＮ個のトークンを抽出し、抽出したＮ個のトークンに対応するＮ個の単語ベクトルを先頭のTransformerに入力する。ただし、このときＮ個のトークンのうち所定割合のトークンをマスクして隠す。マスクしたトークンに対応する単語ベクトルは、例えば、零ベクトルとする。予測器が出力するＮ個のトークンの予測結果とマスク前の元のＮ個のトークンとの間で誤差を算出し、誤差が小さくなるようにエッジの重みを更新する。

その後、ＢｉｏＢＥＲＴ１４２の最終段に接続する予測器を変更する。この予測器は、末尾のTransformerが出力するＮ個のベクトルから、２つの文のうちの後者の文が前者の文と関連するか否か判定するものである。サンプルのテキストから連続する２つの文を抽出し、抽出した２つの文のトークンに対応する単語ベクトルを先頭のTransformerに入力する。予測器が「関連あり」と予測するように、エッジの重みを更新する。また、サンプルのテキストから連続しない２つの文を抽出し、抽出した２つの文のトークンに対応する単語ベクトルを先頭のTransformerに入力する。予測器が「関連なし」と予測するように、エッジの重みを更新する。このようにしてＢｉｏＢＥＲＴ１４２が生成される。

また、機械学習装置１００は、単語ベクトルＴ_１，Ｔ_２，Ｔ_３，…，Ｔ_Ｎとは別に、トークンｗ_１，ｗ_２，ｗ_３，…，ｗ_Ｎに対応するマッチングベクトルＤ_１，Ｄ_２，Ｄ_３，…，Ｄ_Ｎを算出する。各トークンのマッチングベクトルは、既知の固有表現が記載された固有表現辞書と当該トークンとの間のマッチング状態を示すマッチング情報を、分散表現のベクトルに変換したものである。マッチングベクトルは以下のように算出される。

機械学習装置１００は、トークンｗ_１，ｗ_２，ｗ_３，…，ｗ_Ｎから、ｎ個の連続するトークンを示すｎ－ｇｒａｍを網羅的に生成する。ｎ＝１，２，３，…，Ｎである。トークンｗ_１，ｗ_２，ｗ_３，…，ｗ_Ｎから、１－ｇｒａｍはＮ通り生成され、２－ｇｒａｍはＮ－１通り生成され、３－ｇｒａｍはＮ－２通り生成される。

機械学習装置１００は、ｎ－ｇｒａｍそれぞれについて、予め用意した固有表現辞書との間で近似文字列照合を行う。固有表現辞書は、遺伝子名、薬品名、疾患名などの生物医学分野の既知の固有表現とその固有表現が属するクラスとを記載したものである。近似文字列照合では、機械学習装置１００は、固有表現辞書に記載された１つの固有表現と１つのｎ－ｇｒａｍとの間で、編集距離（レーベンシュタイン距離）を算出する。編集距離は、２つの文字列が一致するために行われる１文字の追加、１文字の置換または１文字の削除の回数である。編集距離＝０は、２つの文字列が完全一致していることを意味する。

機械学習装置１００は、編集距離が所定の閾値以下である場合、当該固有表現と当該ｎ－ｇｒａｍとが類似すると判定する。ｎ－ｇｒａｍに類似する固有表現が見つかると、機械学習装置１００は、そのｎ－ｇｒａｍに含まれるトークンそれぞれに対してマッチング情報を生成する。マッチング情報は、クラス、適合度および位置の３つの要素を含む。

クラスは、既知の固有表現が属する固有表現クラスである。クラスは、固有表現辞書に記載されている。第３の実施の形態では、固有表現クラスは、遺伝子／タンパク質名（Gene/Protein）、薬品名（Drug）、疾患名（Disease）および突然変異（Mutation）の４通りである。なお、固有表現でないことを示すその他クラス（Ｏ：Outside）が存在する。適合度は、ｎ－ｇｒａｍと既知の固有表現とが、完全一致関係（Exact）であるか近似関係（Approximate）であるかを示すフラグである。位置は、ｎ－ｇｒａｍの中における着目するトークンの相対位置である。トークン位置は、１－ｇｒａｍの場合の単独（Ｓ：Single）と、２－ｇｒａｍ以上の場合の先頭（Ｂ：Beginning）、中間（Ｉ：Inside）および末尾（Ｅ：Ending）の４通りである。

同一のｎ－ｇｒａｍに対して、類似する既知の固有表現が２つ以上存在することもある。その場合、当該ｎ－ｇｒａｍに含まれるトークンに対して、既知の固有表現それぞれからマッチング情報が生成される。また、あるトークンが属する異なるｎ－ｇｒａｍそれぞれから、当該トークンに対してマッチング情報が生成されることもある。よって、トークンｗ_１，ｗ_２，ｗ_３，…，ｗ_Ｎの中には、マッチング情報が１つのみ得られるトークンもあれば、マッチング情報が２つ以上得られるトークンもあれば、マッチング情報が１つも得られないトークンもある。マッチング情報が１つも得られないトークンに対しては、クラスがその他クラスであるダミーのマッチング情報を与える。

機械学習装置１００は、各マッチング情報をマッチングベクトルに変換する。異なるマッチング情報のパターン（マッチングパターン）の数は、少数であることから、マッチングパターンとその分散表現とを対応付けたマッチングパターン辞書を予め用意しておく。例えば、機械学習装置１００は、各マッチングパターンに識別番号を付与し、識別番号を入力および出力に用いる多層ニューラルネットワークを機械学習によって生成する。機械学習装置１００は、あるマッチングパターンの識別番号を入力層に与えたときに中間層で算出される数値を列挙した特徴ベクトルを、そのマッチングパターンに対応する分散表現のマッチングベクトルとして採用する。マッチングベクトルの次元数は、例えば、１００次元である。各マッチング情報に対応するマッチングベクトルは、幾つかの少数の次元の数値が大きく、多くの次元の数値が小さいという分布をもっていることがある。

機械学習装置１００は、１つのトークンに対して異なるパターンのマッチング情報が生成された場合、異なるマッチング情報に対応する２以上のマッチングベクトルを、プーリング処理によって１つのマッチングベクトルに集約する。プーリング処理は、２以上のベクトルの間で次元毎に数値演算を行うことで、次元数が同じ単一のベクトルを生成する処理である。プーリング処理として、最大プーリング（Max Pooling）や平均プーリング（Average Pooling）が挙げられる。最大プーリングは、次元毎に、２以上のベクトルの中で最大の数値を選択するプーリング処理である。平均プーリングは、次元毎に、２以上のベクトルに含まれる数値の平均値を算出するプーリング処理である。

第３の実施の形態では、最大プーリングを採用している。テキスト１４１のｎ－ｇｒａｍと固有表現辞書との間で近似文字列照合を網羅的に行うと、雑多なマッチング情報が生成されてノイズが発生する。この点、トークン毎にプーリング処理を行うことで、固有表現認識と関連する可能性が高い次元の情報を残してノイズを低減することができ、有用な情報を所定の次元数のベクトル１つに圧縮できる。

このようにして、トークンｗ_１，ｗ_２，ｗ_３，…，ｗ_Ｎに対応するマッチングベクトルＤ_１，Ｄ_２，Ｄ_３，…，Ｄ_Ｎが算出される。機械学習装置１００は、単語ベクトルＴ_１，Ｔ_２，Ｔ_３，…，Ｔ_ＮとマッチングベクトルＤ_１，Ｄ_２，Ｄ_３，…，Ｄ_Ｎとを合成して、結合ベクトルＶ_１，Ｖ_２，Ｖ_３，…，Ｖ_Ｎを生成する。ここでは、トークン毎に、単語ベクトルの後ろにマッチングベクトルを連結する。よって、結合ベクトルの次元数は、単語ベクトルの次元数とマッチングベクトルの次元数の和である。例えば、単語ベクトルが３００次元、マッチングベクトルが１００次元、結合ベクトルが４００次元である。

例えば、トークンｗ_１について、単語ベクトルＴ_１の後ろにマッチングベクトルＤ_１を連結して、結合ベクトルＶ_１が生成される。また、トークンｗ_２について、単語ベクトルＴ_２の後ろにマッチングベクトルＤ_２を連結して、結合ベクトルＶ_２が生成される。トークンｗ_３について、単語ベクトルＴ_３の後ろにマッチングベクトルＤ_３を連結して、結合ベクトルＶ_３が生成される。トークンｗ_Ｎについて、単語ベクトルＴ_Ｎの後ろにマッチングベクトルＤ_Ｎを連結して、結合ベクトルＶ_Ｎが生成される。

機械学習装置１００は、結合ベクトルＶ_１，Ｖ_２，Ｖ_３，…，Ｖ_Ｎを固有表現認識モデル１４３に入力して、トークンｗ_１，ｗ_２，ｗ_３，…，ｗ_Ｎに対応するタグスコアｓ_１，ｓ_２，ｓ_３，…，ｓ_Ｎを算出する。タグスコアは、複数のタグ情報それぞれの確信度を含む。タグ情報は、Gene/Protein-BやDrug-Eのように、クラスおよび位置を示す。機械学習装置１００は、タグスコアｓ_１，ｓ_２，ｓ_３，…，ｓ_Ｎに基づいて、トークンｗ_１，ｗ_２，ｗ_３，…，ｗ_Ｎそれぞれに対応付けるタグ情報を決定する。機械学習装置１００は、トークン毎に、複数のタグ情報のうち確信度が最大のタグ情報を選択してもよい。

また、機械学習装置１００は、条件的確率場（ＣＲＦ：Conditional Random Fields）を通して、タグスコアｓ_１，ｓ_２，ｓ_３，…，ｓ_Ｎからトークンｗ_１，ｗ_２，ｗ_３，…，ｗ_Ｎそれぞれのタグ情報を決定してもよい。隣接するトークンは、固有表現の一部であるか否かについて依存関係をもつ。そこで、条件的確率場は、単純に１つのタグスコアから１つのタグ情報を選択するのではなく、タグ情報の間の依存関係を考慮してタグ情報を選択する。条件的確率場は、タグスコアｓ_１，ｓ_２，ｓ_３，…，ｓ_Ｎを受け付けると、確率が最大になるタグ情報の組み合わせを求めて、各トークンのタグ情報を決定する。条件的確率場は、訓練済みのニューラルネットワークで表現されてもよい。

固有表現認識モデル１４３は、多層ニューラルネットワークである。第３の実施の形態では、固有表現認識モデル１４３として、双方向ＬＳＴＭが使用される。ＬＳＴＭは、内部状態を保持する多層ニューラルネットワークである。内部状態を保持することから、複数の入力ベクトルを連続的にＬＳＴＭに入力すると、ある入力ベクトルに対する出力ベクトルは、その入力ベクトルだけでなくそれ以前の入力ベクトルにも依存する。

双方向ＬＳＴＭは、複数の結合ベクトルが順方向（Ｖ_１，Ｖ_２，…，Ｖ_Ｎの順）に入力される順方向ＬＳＴＭと、複数の結合ベクトルが逆方向（Ｖ_Ｎ，Ｖ_Ｎ－１，…，Ｖ_１の順）に入力される逆方向ＬＳＴＭとを含む。双方向ＬＳＴＭでは、あるトークンが後ろのトークンとも関連性をもつことを表現することができる。双方向ＬＳＴＭは、同じトークンに対応する順方向ＬＳＴＭの出力ベクトルと逆方向ＬＳＴＭの出力ベクトルとを合成して、当該トークンに対する最終的な出力ベクトルを算出する。

機械学習装置１００は、固有表現認識モデル１４３を、訓練データとしてのテキストを用いて機械学習により生成する。訓練データとしてのテキストから、固有表現認識モデル１４３の入力データである結合ベクトルＶ_１，Ｖ_２，Ｖ_３，…，Ｖ_Ｎを生成するまでの手順は、固有表現認識モデル１４３を利用して固有表現認識を行う場合と同様である。

機械学習装置１００は、結合ベクトルＶ_１，Ｖ_２，Ｖ_３，…，Ｖ_Ｎを固有表現認識モデル１４３に入力し、教師ラベルとしてテキストに付与されているタグ情報とタグスコアｓ_１，ｓ_２，ｓ_３，…，ｓ_Ｎとを比較して誤差を算出する。機械学習装置１００は、誤差逆伝播法によって、誤差が小さくなるようにパラメータであるエッジの重みを更新する。このとき、各トークンについて、タグスコアが示す複数のタグ情報の確信度のうち、教師ラベルが示す正解のタグ情報の確信度が最大になるように、パラメータが調整される。

次に、各トークンのマッチングベクトルを算出する具体例について説明する。図５は、固有表現辞書の例を示す図である。機械学習装置１００は、固有表現辞書１３１を予め保持しておく。固有表現辞書１３１は、用語ＩＤ、固有表現およびクラスを対応付けた複数のレコードを含む。用語ＩＤは、固有表現を識別する識別子である。固有表現辞書１３１に登録される固有表現は、既知の遺伝子／タンパク質名（Gene/Protein）、薬品名（Drug）、疾患名（Disease）または突然変異（Mutation）である。１つの固有表現が１つのトークンであることもあるし、２以上のトークンを含むこともある。クラスは、これら４通りの分類を示す。

ここでは一例として、固有表現＃１０１は、epidermal growth factorであり、遺伝子／タンパク質名である。固有表現＃１０２は、epidermal growth factor-like 2であり、遺伝子／タンパク質名である。固有表現＃１０３は、epidermal growth factor receptorであり、遺伝子／タンパク質名である。固有表現＃１０４は、pro-epidermal growth factorであり、遺伝子／タンパク質名である。

図６は、マッチングパターン辞書の例を示す図である。機械学習装置１００は、マッチングパターン辞書１３２を予め保持しておく。マッチングパターン辞書１３２は、パターンＩＤ、マッチングパターンおよび分散表現を対応付けた複数のレコードを含む。パターンＩＤは、マッチングパターンを識別する識別子である。マッチングパターンは、マッチング情報のパターンを示しており、クラス、合致度および位置の３つを連結したものである。クラスは、遺伝子／タンパク質名（Gene/Protein）、薬品名（Drug）、疾患名（Disease）、突然変異（Mutation）またはその他（Other）である。合致度は、完全一致（Exact）または近似（Approximate）である。位置は、先頭（Ｂ）、中間（Ｉ）、末尾（Ｅ）、単独（Ｓ）である。

分散表現は、マッチングパターンをベクトル化したマッチングベクトルである。以下の具体例では、説明を簡単にするため、マッチングベクトルを５次元で表現している。一例として、マッチングパターン１は、Gene/Protein-Exact-Bであり、その分散表現が（３，２，－３，２，６）である。マッチングパターン５は、Gene/Protein-Approximate-Bであり、その分散表現が（１，６，－１，０，７）である。マッチングパターン５は、Gene/Protein-Approximate-Iであり、その分散表現が（０，４，６，３，７）である。

なお、マッチングパターン辞書１３２は、クラスがその他（Other）であるダミーのマッチングパターンも含む。ダミーのマッチングパターンに対しても、パターンＩＤや分散表現のマッチングベクトルが割り当てられている。

図７は、マッチングベクトルの生成例を示す図である。テキスト１５１は、"EGFR is epidermal growth factor receptor."という文を含む。機械学習装置１００は、テキスト１５１を、トークン１５１－１～１５１－７（"EGFR"，"is"，"epidermal"，"growth"，"factor"，"receptor"，"."）に分割する。機械学習装置１００は、トークン１５１－１～１５１－７のｎ－ｇｒａｍを生成し、各ｎ－ｇｒａｍと固有表現辞書１３１との間でマッチング処理を行う。ここでは、トークン１５１－３（"epidermal"）に着目して、幾つかのｎ－ｇｒａｍについて説明する。

機械学習装置１００は、トークン１５１－３，１５１－４の２－ｇｒａｍと固有表現辞書１３１との間で、近似文字列照合を行う。すると、この２－ｇｒａｍと近似する固有表現＃１０１がヒットする。固有表現＃１０１のクラスはGene/Proteinである。トークン１５１－３は先頭のトークンである。そこで、機械学習装置１００は、トークン１５１－３に対して、Gene/Protein-Approximate-Bというマッチング情報を生成する。

また、機械学習装置１００は、トークン１５１－３，１５１－４，１５１－５の３－ｇｒａｍと固有表現辞書１３１との間で、近似文字列照合を行う。すると、この３－ｇｒａｍと完全一致する固有表現＃１０１がヒットする。そこで、機械学習装置１００は、トークン１５１－３に対して、Gene/Protein-Exact-Bというマッチング情報を生成する。また、固有表現＃１０１の他に、この３－ｇｒａｍと近似する固有表現＃１０２，＃１０４がヒットする。そこで、機械学習装置１００は、トークン１５１－３に対して、Gene/Protein-Approximate-Bというマッチング情報をそれぞれ生成する。

また、機械学習装置１００は、トークン１５１－２，１５１－３，１５１－４，１５１－５の４－ｇｒａｍと固有表現辞書１３１との間で、近似文字列照合を行う。すると、この４－ｇｒａｍと近似する固有表現＃１０２，＃１０４がヒットする。トークン１５１－３は中間のトークンである。そこで、機械学習装置１００は、トークン１５１－３に対して、Gene/Protein-Approximate-Iというマッチング情報をそれぞれ生成する。また、機械学習装置１００は、トークン１５１－３，１５１－４，１５１－５，１５１－６の４－ｇｒａｍと固有表現辞書１３１との間で、近似文字列照合を行う。すると、この４－ｇｒａｍと完全一致する固有表現＃１０３がヒットする。そこで、機械学習装置１００は、トークン１５１－３に対して、Gene/Protein-Exact-Bというマッチング情報を生成する。

以上より、異なるマッチング情報は、Gene/Protein-Exact-B，Gene/Protein-Approximate-B，Gene/Protein-Approximate-Iの３通りである。機械学習装置１００は、マッチングパターン辞書１３２を参照して、これら３通りのマッチング情報を３つのマッチングベクトルに変換する。Gene/Protein-Exact-Bは、マッチングパターン１に相当し、マッチングベクトル１５２－１に変換される。Gene/Protein-Approximate-Bは、マッチングパターン５に相当し、マッチングベクトル１５２－２に変換される。Gene/Protein-Approximate-Iは、マッチングパターン６に相当し、マッチングベクトル１５２－３に変換される。

機械学習装置１００は、マッチングベクトル１５２－１，１５２－２，１５２－３から、最大プーリングによってマッチングベクトル１５３を算出する。マッチングベクトル１５２－１は（３，２，－３，２，６）である。マッチングベクトル１５２－２は（１，６，－１，０，７）である。マッチングベクトル１５２－３は（０，４，６，３，７）である。次元毎に最大の数値を選択すると、トークン１５１－３に対応するマッチングベクトル１５３は、（３，６，６，３，７）となる。

図８は、固有表現認識結果の例を示す図である。テキスト１６１は、マッチングベクトルＤ_１，Ｄ_２，Ｄ_３，…，Ｄ_Ｎを使用せずに単語ベクトルＴ_１，Ｔ_２，Ｔ_３，…，Ｔ_Ｎのみを入力データとして使用するように固有表現認識モデルを生成した場合の固有表現認識結果を示している。一方、テキスト１６２は、図４の固有表現認識モデル１４３による固有表現認識結果を示している。

テキスト１６１，１６２に含まれるTPM1-ASは、固有表現辞書１３１に記載されていない未知の固有表現であり、遺伝子／タンパク質名に相当する。テキスト１６１が示す固有表現認識結果では、トークン"TPM1"が単独の遺伝子／タンパク質名の固有表現と判定され、トークン"-"，"AS"がそれぞれ非固有表現と判定されている。一方、テキスト１６２が示す固有表現認識結果では、TPM1-ASが一続きの遺伝子／タンパク質名の固有表現として正しく認識されている。このように、複雑な複合語であることが多い遺伝子／タンパク質名や薬品名も、一続きの固有名詞として正しく認識できる可能性が高くなる。

次に、機械学習装置１００の機能について説明する。図９は、機械学習装置の機能例を示すブロック図である。機械学習装置１００は、テキスト記憶部１２１、辞書記憶部１２２、モデル記憶部１２３、モデル生成部１２４および固有表現認識部１２５を有する。テキスト記憶部１２１、辞書記憶部１２２およびモデル記憶部１２３は、例えば、ＲＡＭ１０２またはＨＤＤ１０３の記憶領域を用いて実現される。モデル生成部１２４および固有表現認識部１２５は、例えば、ＣＰＵ１０１が実行するプログラムを用いて実現される。

テキスト記憶部１２１は、訓練データとしてのテキストを記憶する。訓練データとしてのテキストには、教師ラベルとして固有表現クラスを示すタグ情報が付加されている。また、テキスト記憶部１２１は、認識対象のテキストを記憶する。辞書記憶部１２２は、前述の固有表現辞書１３１およびマッチングパターン辞書１３２を記憶する。モデル記憶部１２３は、訓練済みのＢｉｏＢＥＲＴ１４２を記憶する。また、モデル記憶部１２３は、モデル生成部１２４によって生成された固有表現認識モデル１４３を記憶する。

モデル生成部１２４は、テキスト記憶部１２１から訓練データとしてのテキストを読み出し、辞書記憶部１２２から固有表現辞書１３１およびマッチングパターン辞書１３２を読み出し、モデル記憶部１２３から訓練済みのＢｉｏＢＥＲＴ１４２を読み出す。モデル生成部１２４は、読み出したテキストを入力データに変換し、入力データと教師ラベルとを用いて、機械学習により固有表現認識モデル１４３を生成する。モデル生成部１２４は、生成した固有表現認識モデル１４３をモデル記憶部１２３に保存する。

固有表現認識部１２５は、テキスト記憶部１２１から認識対象のテキストを読み出し、辞書記憶部１２２から固有表現辞書１３１およびマッチングパターン辞書１３２を読み出し、モデル記憶部１２３から訓練済みのＢｉｏＢＥＲＴ１４２を読み出す。固有表現認識部１２５は、読み出したテキストを入力データに変換する。また、固有表現認識部１２５は、モデル記憶部１２３から訓練済みの固有表現認識モデル１４３を読み出す。そして、固有表現認識部１２５は、固有表現認識モデル１４３に入力データを入力し、各トークンに対応付けたタグ情報を含む固有表現認識結果を生成する。

固有表現認識部１２５は、固有表現認識結果を出力する。例えば、固有表現認識部１２５は、不揮発性ストレージに固有表現認識結果を保存する。また、例えば、固有表現認識部１２５は、表示装置１１１に固有表現認識結果を表示する。また、例えば、固有表現認識部１２５は、他の情報処理装置に固有表現認識結果を送信する。

次に、機械学習装置１００の処理手順について説明する。図１０は、入力データ生成の手順例を示すフローチャートである。ここでは、モデル生成部１２４が入力データを生成する場合について説明する。固有表現認識部１２５も、モデル生成部１２４と同様の手順で入力データを生成する。

（Ｓ１０）モデル生成部１２４は、各トークンを分散表現の単語ベクトルに変換する。
（Ｓ１１）モデル生成部１２４は、Ｎ個のトークンに対応するＮ個の単語ベクトルを、訓練済みのＢｉｏＢＥＲＴ１４２に入力し、別のＮ個の単語ベクトルに変換する。

（Ｓ１２）モデル生成部１２４は、Ｎ個のトークンから連続するｎ個（ｎ＝１，２，…，Ｎ）のトークンを抽出してｎ－ｇｒａｍを網羅的に生成する。
（Ｓ１３）モデル生成部１２４は、ステップＳ１２で生成したｎ－ｇｒａｍの集合の中から１つのｎ－ｇｒａｍを選択する。

（Ｓ１４）モデル生成部１２４は、ステップＳ１３で選択したｎ－ｇｒａｍを固有表現辞書１３１から検索する。ここでは、近似文字列照合が行われる。モデル生成部１２４は、選択したｎ－ｇｒａｍと固有表現辞書１３１に含まれる複数の固有表現それぞれとの間で編集距離を算出し、編集距離が閾値以下である類似固有表現を検索する。

（Ｓ１５）モデル生成部１２４は、ステップＳ１４で少なくとも１つの類似固有表現が検索された場合、ステップＳ１３で選択したｎ－ｇｒａｍに含まれる各トークンに対して｛クラス，合致度，位置｝を示すマッチング情報を生成する。クラスは、類似固有表現の属するクラスである。合致度は、ｎ－ｇｒａｍと類似固有表現とが完全一致するか近似するかを示すフラグである。位置は、ｎ－ｇｒａｍの中の該当トークンの相対位置である。ステップＳ１４で２以上の類似固有表現が検索された場合、２以上の類似固有表現それぞれについて上記のマッチング情報が生成される。

（Ｓ１６）モデル生成部１２４は、ステップＳ１３において全てのｎ－ｇｒａｍを選択したか判断する。全てのｎ－ｇｒａｍを選択した場合はステップＳ１７に進み、未選択のｎ－ｇｒａｍがある場合はステップＳ１３に戻る。

（Ｓ１７）モデル生成部１２４は、トークン毎に同一内容のマッチング情報を纏める。ステップＳ１５で生成されたマッチング情報が無いトークンに対しては、モデル生成部１２４は、クラスがその他（Other）であるダミーのマッチング情報を生成する。モデル生成部１２４は、マッチングパターン辞書１３２を参照して、トークン毎に異なるマッチング情報を分散表現のマッチングベクトルに変換する。

（Ｓ１８）モデル生成部１２４は、トークン毎にマッチングベクトルを合成するプーリング処理を行う。ステップＳ１７で得られたマッチングベクトルが１つであるトークンに対しては、モデル生成部１２４は、そのマッチングベクトルを採用する。ステップＳ１７で得られたマッチングベクトルが２以上あるトークンに対しては、モデル生成部１２４は、同一次元の数値同士の演算によって単一のマッチングベクトルを生成する。例えば、モデル生成部１２４は、次元毎に最大値を選択する最大プーリングを行う。

（Ｓ１９）モデル生成部１２４は、Ｎ個のトークンそれぞれについて、ステップＳ１１で生成した単語ベクトルとステップＳ１８で生成したマッチングベクトルとを結合して、結合ベクトルを生成する。結合ベクトルは、ステップＳ１１の単語ベクトルの後ろにステップＳ１８のマッチングベクトルを連結したものである。

図１１は、モデル生成の手順例を示すフローチャートである。（Ｓ２０）モデル生成部１２４は、固有表現認識モデル１４３のパラメータを初期化する。パラメータは、多層ニューラルネットワークのノード間のエッジの重みである。

（Ｓ２１）モデル生成部１２４は、教師ラベルが付与されている機械学習用のテキストに含まれる文字列を、複数のトークンに分割する。
（Ｓ２２）モデル生成部１２４は、図１０に示した入力データ生成を実行する。これにより、複数のトークンに対応する複数の結合ベクトルが生成される。

（Ｓ２３）モデル生成部１２４は、固有表現認識モデル１４３にＮ個の結合ベクトルを入力する。このとき、順方向ＬＳＴＭにはＮ個の結合ベクトルが先頭から順に入力され、逆方向ＬＳＴＭにはＮ個の結合ベクトルが末尾から順に入力される。これにより、Ｎ個の結合ベクトルに対応するＮ個の推定結果が出力される。

（Ｓ２４）モデル生成部１２４は、ステップＳ２３のＮ個の推定結果とＮ個のトークンの教師ラベルとを比較して、両者の誤差を算出する。例えば、モデル生成部１２４は、正解のタグ情報の確信度を１から引いた数値を各トークンの誤差として算出し、Ｎ個のトークンの誤差の平均を全体の誤差として算出する。

（Ｓ２５）モデル生成部１２４は、ステップＳ２４で算出した誤差に応じて、固有表現認識モデル１４３のパラメータの値を修正する。例えば、モデル生成部１２４は、パラメータに対する誤差の勾配を算出し、誤差勾配に所定の学習率を乗じた分だけパラメータの値を変動させる。モデル生成部１２４は、多層ニューラルネットワークの末尾から先頭に向かって、誤差勾配を伝播させながらパラメータの値を順に変動させていく。

（Ｓ２６）モデル生成部１２４は、所定の停止条件を満たすか判断する。停止条件は、ステップＳ２３～Ｓ２５を所定回数繰り返したことであってもよい。また、停止条件は、誤差が閾値以下に低下したことであってもよい。停止条件を満たす場合、ステップＳ２７に進む。停止条件を満たしていない場合、ステップＳ２３に戻り、同一または異なるＮ個のトークンを用いてステップＳ２３～Ｓ２５を実行する。

（Ｓ２７）モデル生成部１２４は、訓練済みのパラメータの値を含む固有表現認識モデル１４３を、モデル記憶部１２３に保存する。
図１２は、固有表現認識の手順例を示すフローチャートである。（Ｓ３０）固有表現認識部１２５は、モデル記憶部１２３から、訓練済みの固有表現認識モデル１４３を読み出す。

（Ｓ３１）固有表現認識部１２５は、教師ラベルが付与されていない認識対象のテキストに含まれる文字列を、複数のトークンに分割する。
（Ｓ３２）固有表現認識部１２５は、図１０に示した入力データ生成を実行する。これにより、複数のトークンに対応する複数の結合ベクトルが生成される。

（Ｓ３３）固有表現認識部１２５は、固有表現認識モデル１４３にＮ個の結合ベクトルを入力する。このとき、順方向ＬＳＴＭにはＮ個の結合ベクトルが先頭から順に入力され、逆方向ＬＳＴＭにはＮ個の結合ベクトルが末尾から順に入力される。これにより、Ｎ個の結合ベクトルに対応するＮ個のタグスコアが算出される。

（Ｓ３４）固有表現認識部１２５は、ステップＳ３３で算出したタグスコアから、各トークンについてクラスの推定結果を含むタグ情報を生成する。例えば、固有表現認識部１２５は、トークン毎に最大の確信度が算出されたタグ情報を選択する。また、例えば、固有表現認識部１２５は、条件的確率場にＮ個のタグスコアを入力し、確率が最大になるようなＮ個のタグ情報の列を生成する。

（Ｓ３５）固有表現認識部１２５は、ステップＳ３４で得られた固有表現の推定結果を出力する。例えば、固有表現認識部１２５は、推定結果を表示装置１１１に表示する。
第３の実施の形態の機械学習装置１００によれば、多層ニューラルネットワークである固有表現認識モデル１４３を用いて、分散表現のベクトルから固有表現クラスの確信度が算出される。よって、固有表現辞書１３１に記載されていない未知の固有表現も認識することが可能となる。また、固有表現辞書１３１とｎ－ｇｒａｍとの間のマッチング状態を示すマッチング情報が生成され、マッチング情報がベクトル化され、単語ベクトルと結合されて固有表現認識モデル１４３の入力として使用される。よって、固有表現辞書１３１に記載された既知の固有表現を考慮した固有表現認識が可能となる。

また、マッチング処理では、完全一致文字列照合だけでなく近似文字列照合も行われる。よって、既知の固有表現を変形した新しい固有表現についても認識精度を向上させることができる。特に、生物医学分野の遺伝子／タンパク質名や薬品名は複合語が多く、語尾が変形した類似する固有表現が新たに出現することが多い。このような複合語の固有表現についても、近似文字列照合の結果を入力として利用することで、認識精度を向上させることができる。その結果として、複数のトークンから成る一続きの固有表現を、途中で分断せずに正しく認識することが可能となる。

また、固有表現辞書１３１とｎ－ｇｒａｍとの間で網羅的に近似文字列照合を行うと、雑多なマッチング情報が生成される。雑多なマッチング情報に対応する多数のマッチングベクトルをそのまま固有表現認識モデル１４３の入力として使用すると、大きなノイズとなってしまう可能性がある。この点、トークン毎にプーリング処理によってマッチングベクトルが１つに合成される。プーリング処理として、例えば、最大プーリングが行われる。よって、固有表現認識の精度向上に寄与する可能性が高い次元の情報が残り、ノイズを除去することができる。これにより、固有表現認識の精度が向上する。

上記については単に本発明の原理を示すものである。更に、多数の変形や変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応する全ての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

１０機械学習装置
１１，２１記憶部
１２，２２制御部
１３，２３テキストデータ
１３ａ，２３ａトークン列
１４，２４辞書情報
１４ａ，２４ａ類似固有表現
１５，１６，２５，２６ベクトルデータ
１７，２７入力データ
１８，２８固有表現認識モデル
２０固有表現認識装置
２９固有表現

Claims

固有表現を示すラベルが付与されたテキストデータに含まれる文字列を複数のトークンに分割し、
前記複数のトークンのうち連続する特定の個数のトークンを示すトークン列と、複数の固有表現と前記複数の固有表現それぞれのクラスを示すクラス情報とを含む第１の辞書情報との間でマッチング処理を実行して、前記複数の固有表現のうち前記トークン列との類似度が閾値以上である類似固有表現を検索し、
前記トークン列に含まれる２以上のトークンそれぞれに対して、前記トークン列の中における当該トークンの相対位置を示す位置情報と、前記トークン列と前記類似固有表現とが完全一致するか否かを示す合致度情報と、前記類似固有表現の前記クラス情報とを含むマッチング情報を生成し、
前記位置情報と前記合致度情報と前記クラス情報との組み合わせに対して、複数の次元の数値を含む第１のベクトルデータを対応付けた第２の辞書情報に基づいて、前記２以上のトークンそれぞれの前記マッチング情報を、前記第１のベクトルデータに変換し、
訓練済みの機械学習モデルを用いて前記複数のトークンから変換された、複数の次元の数値をそれぞれ含む複数の第２のベクトルデータのうち、前記２以上のトークンに対応する第２のベクトルデータに前記第１のベクトルデータをそれぞれ合成して、合成後の前記複数の第２のベクトルデータを含む入力データを生成し、
固有表現を検出するための固有表現認識モデルに前記入力データを入力して、前記固有表現認識モデルの出力と前記ラベルとを比較することを含む機械学習により、前記固有表現認識モデルを生成する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。
前記類似固有表現を検索する処理は、前記トークン列と共通のトークンを含む他のトークン列と前記第１の辞書情報との間で前記マッチング処理を実行する処理を含み、
前記マッチング情報を生成する処理は、前記他のトークン列に含まれる他の２以上のトークンそれぞれに対して他のマッチング情報を生成する処理を含み、
前記マッチング情報を変換する処理は、前記共通のトークンに対して、前記マッチング情報に対応する前記第１のベクトルデータと前記他のマッチング情報に対応する前記第１のベクトルデータとを単一の第１のベクトルデータに集約する処理を含み、
前記入力データを生成する処理では、前記共通のトークンに対応する第２のベクトルデータに、集約後の前記単一の第１のベクトルデータが合成される、
ことを特徴とする請求項１に記載の機械学習プログラム。
前記単一の第１のベクトルデータに集約する処理は、同一次元の要素同士で最大値または平均値を求めるプーリング処理を実行して前記単一の第１のベクトルデータを生成する処理を含む、
ことを特徴とする請求項２に記載の機械学習プログラム。
前記マッチング情報を生成する処理は、前記トークン列から２以上の類似固有表現が検索された場合、前記２以上のトークンそれぞれに対して、前記２以上の類似固有表現に対応する２以上のマッチング情報を生成する処理を含み、
前記マッチング情報を変換する処理は、前記２以上のトークンそれぞれに対して、前記２以上のマッチング情報に対応する２以上の第１のベクトルデータを単一の第１のベクトルデータに集約する処理を含み、
前記入力データを生成する処理では、前記２以上のトークンに対応する第２のベクトルデータに、集約後の前記単一の第１のベクトルデータがそれぞれ合成される、
ことを特徴とする請求項１に記載の機械学習プログラム。
固有表現を示すラベルが付与されたテキストデータに含まれる文字列を複数のトークンに分割し、
前記複数のトークンのうち連続する特定の個数のトークンを示すトークン列と、複数の固有表現と前記複数の固有表現それぞれのクラスを示すクラス情報とを含む第１の辞書情報との間でマッチング処理を実行して、前記複数の固有表現のうち前記トークン列との類似度が閾値以上である類似固有表現を検索し、
前記トークン列に含まれる２以上のトークンそれぞれに対して、前記トークン列の中における当該トークンの相対位置を示す位置情報と、前記トークン列と前記類似固有表現とが完全一致するか否かを示す合致度情報と、前記類似固有表現の前記クラス情報とを含むマッチング情報を生成し、
前記位置情報と前記合致度情報と前記クラス情報との組み合わせに対して、複数の次元の数値を含む第１のベクトルデータを対応付けた第２の辞書情報に基づいて、前記２以上のトークンそれぞれの前記マッチング情報を、前記第１のベクトルデータに変換し、
訓練済みの機械学習モデルを用いて前記複数のトークンから変換された、複数の次元の数値をそれぞれ含む複数の第２のベクトルデータのうち、前記２以上のトークンに対応する第２のベクトルデータに前記第１のベクトルデータをそれぞれ合成して、合成後の前記複数の第２のベクトルデータを含む入力データを生成し、
固有表現を検出するための固有表現認識モデルに前記入力データを入力して、前記固有表現認識モデルの出力と前記ラベルとを比較することを含む機械学習により、前記固有表現認識モデルを生成する、
処理をコンピュータが実行することを特徴とする機械学習方法。
複数の固有表現と前記複数の固有表現それぞれのクラスを示すクラス情報とを含む第１の辞書情報と、固有表現を検出するための固有表現認識モデルとを記憶する記憶部と、
テキストデータに含まれる文字列を複数のトークンに分割し、前記複数のトークンのうち連続する特定の個数のトークンを示すトークン列と前記第１の辞書情報との間でマッチング処理を実行して、前記複数の固有表現のうち前記トークン列との類似度が閾値以上である類似固有表現を検索し、前記トークン列に含まれる２以上のトークンそれぞれに対して、前記トークン列の中における当該トークンの相対位置を示す位置情報と、前記トークン列と前記類似固有表現とが完全一致するか否かを示す合致度情報と、前記類似固有表現の前記クラス情報とを含むマッチング情報を生成し、前記位置情報と前記合致度情報と前記クラス情報との組み合わせに対して、複数の次元の数値を含む第１のベクトルデータを対応付けた第２の辞書情報に基づいて、前記２以上のトークンそれぞれの前記マッチング情報を、前記第１のベクトルデータに変換し、訓練済みの機械学習モデルを用いて前記複数のトークンから変換された、複数の次元の数値をそれぞれ含む複数の第２のベクトルデータのうち、前記２以上のトークンに対応する第２のベクトルデータに前記第１のベクトルデータをそれぞれ合成して、合成後の前記複数の第２のベクトルデータを含む入力データを生成し、前記入力データを前記固有表現認識モデルに入力することで、前記テキストデータの中から固有表現を検出する処理を実行する制御部と、
を有することを特徴とする固有表現認識装置。