JP6936370B1 - 情報処理システム、及び情報処理プログラム - Google Patents

情報処理システム、及び情報処理プログラム Download PDF

Info

Publication number
JP6936370B1
JP6936370B1 JP2020147186A JP2020147186A JP6936370B1 JP 6936370 B1 JP6936370 B1 JP 6936370B1 JP 2020147186 A JP2020147186 A JP 2020147186A JP 2020147186 A JP2020147186 A JP 2020147186A JP 6936370 B1 JP6936370 B1 JP 6936370B1
Authority
JP
Japan
Prior art keywords
information
word
words
unknown
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020147186A
Other languages
English (en)
Other versions
JP2022042030A (ja
Inventor
恭介 瀬在
恭介 瀬在
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SCSK Corp
Original Assignee
SCSK Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SCSK Corp filed Critical SCSK Corp
Priority to JP2020147186A priority Critical patent/JP6936370B1/ja
Application granted granted Critical
Publication of JP6936370B1 publication Critical patent/JP6936370B1/ja
Publication of JP2022042030A publication Critical patent/JP2022042030A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】処理精度を向上させることが可能となる情報処理システム及び情報処理プログラムを提供すること。【解決手段】1個以上の単語に関する機械学習を行うことにより生成された学習済BERTモデルであって、単語の特徴を示す数値情報を出力する学習済対象モデルについて再度機械学習を行うための情報処理システムであって、学習済BERTモデルにおいて機械学習の対象となっていない未知語を、第1文章情報から取得する取得部231と、第2文章情報を用いて、学習済BERTモデルについて、少なくとも取得部231が取得した未知語に関する機械学習を行う学習部232と、を備え、学習部232は、所定の判定基準に基づいて、未知語を機械学習の対象にするか否かを判定し、機械学習の対象にするものと判定した未知語に関する機械学習を学習済対象モデルについて行う。【選択図】図1

Description

本発明は、情報処理システム、及び情報処理プログラムに関する。
従来、自然言語処理を行うための技術が知られていた(例えば、特許文献1)。
特開2011−113097号公報
ところで、自然言語処理においては、単語について機械学習を行って生成されたモデルを用いて、文章情報に関する様々な処理が行われる場合があった。
しかしながら、このようなモデルを用いて処理を行う場合、処理の対象となる文章情報の分野が機械学習を行った分野とは異なる分野になった場合、処理精度が低下する可能性があり、処理精度向上の観点から改善の余地があった。
本発明は、上記に鑑みてなされたものであって、処理精度を向上させることが可能となる情報処理システム及び情報処理プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、請求項1に記載の情報処理システムは、1個以上の単語に関する機械学習を行うことにより生成された学習済対象モデルであって、単語の特徴を示す数値情報を出力する前記学習済対象モデルについて再度機械学習を行うための情報処理システムであって、前記学習済対象モデルで一意に識別される単語が記録されている単語辞書情報を格納する格納手段と、前記学習済対象モデルにおいて機械学習の対象となっていない未知語であって、少なくとも前記格納手段の前記単語辞書情報に記録されていない単語である前記未知語を、第1文章情報から取得する取得手段と、前記第1文章情報に関連する第2文章情報を用いて、前記学習済対象モデルについて、少なくとも前記取得手段が取得した前記未知語に関する機械学習を行う学習手段と、を備え、前記学習手段は、前記取得手段が取得した前記未知語を前記単語辞書情報に新たに記録する第1処理と、前記第2文章情報に含まれる文章を単語に分割する第2処理と、前記格納手段に格納されている前記単語辞書情報に基づいて、前記第2処理で分割された単語を、各単語を識別するための単語識別情報に変換する第3処理と、前記第3処理で変換された前記単語識別情報に基づいて、前記学習済対象モデルについて機械学習を行う第4処理と、を行う。
請求項2に記載の情報処理システムは、請求項1に記載の情報処理システムにおいて、前記学習手段は、所定の判定基準に基づいて、前記取得手段が取得した前記未知語を機械学習の対象にするか否かを判定し、前記取得手段が取得した前記未知語の内の、機械学習の対象にするものと判定した前記未知語に関する機械学習を前記学習済対象モデルについて行う。
請求項3に記載の情報処理システムは、請求項2に記載の情報処理システムにおいて、前記学習手段は、前記取得手段が取得した前記未知語の品詞に関する基準に基づいて、前記取得手段が取得した前記未知語を機械学習の対象にするか否かを判定する。
請求項4に記載の情報処理システムは、請求項2又は3に記載の演算システムにおいて、前記学習手段は、前記取得手段が取得した前記未知語の、前記第1文章情報又は前記第2文章情報内での出現頻度に関する基準に基づいて、前記取得手段が取得した前記未知語を機械学習の対象にするか否かを判定する。
請求項5に記載の情報処理システムは、請求項1から4の何れか一項に記載の情報処理システムにおいて、前記取得手段は、所定の特定基準に基づいて、前記第1文章情報において重要単語又は重要フレーズを特定し、特定した前記重要単語又は前記重要フレーズに基づいて、前記第1文章情報から前記未知語を取得する。
請求項に記載の情報処理システムは、請求項1からの何れか一項に記載の情報処理システムにおいて、前記第1文章情報は、ニュース記事のタイトルに対応する文章を示す情報であり、前記第2文章情報は、ニュース記事の本文に対応する文章を示す情報である。
請求項7に記載の情報処理システムは、請求項1から6の何れか一項に記載の情報処理システムにおいて、前記第3処理において、前記学習手段は、前記第2処理で分割された単語が前記単語辞書情報に記録されている場合に、当該単語を一意に識別するための前記単語識別情報である第1単語識別情報に変換し、前記第2処理で分割された単語が前記単語辞書情報に記録されていない場合に、前記単語辞書情報に記録されていない単語に共通して用いる前記単語識別情報である第2単語識別情報に変換し、前記第4処理において、前記学習手段は、前記第3処理で変換された前記第1単語識別情報及び前記第2単語識別情報に基づいて、前記学習済対象モデルについて機械学習を行う。
請求項に記載の情報処理プログラムは、1個以上の単語に関する機械学習を行うことにより生成された学習済対象モデルであって、単語の特徴を示す数値情報を出力する前記学習済対象モデルについて再度機械学習を行うための情報処理プログラムであって、コンピュータを、前記学習済対象モデルにおいて機械学習の対象となっていない未知語であって、少なくとも前記学習済対象モデルで一意に識別される単語が記録されている単語辞書情報を格納する格納手段に格納されている前記単語辞書情報に記録されていない単語である前記未知語を、第1文章情報から取得する取得手段と、前記第1文章情報に関連する第2文章情報を用いて、前記学習済対象モデルについて、少なくとも前記取得手段が取得した前記未知語に関する機械学習を行う学習手段と、として機能させ、前記学習手段は、前記取得手段が取得した前記未知語を前記単語辞書情報に新たに記録する第1処理と、前記第2文章情報に含まれる文章を単語に分割する第2処理と、前記格納手段に格納されている前記単語辞書情報に基づいて、前記第2処理で分割された単語を、各単語を識別するための単語識別情報に変換する第3処理と、前記第3処理で変換された前記単語識別情報に基づいて、前記学習済対象モデルについて機械学習を行う第4処理と、を行う。
請求項1に記載の情報処理システム、及び請求項に記載の情報処理プログラムによれば、例えば、学習済対象モデルを更新することができるので、当該学習済対象モデルに基づいて行う処理の処理精度を向上させることが可能となる。また、例えば、新たに学習済対象モデルを生成するわけではないので、比較的少ない情報量の第2文章情報を用いて機械学習を行うことができるので、当該機械学習を行う時間を短縮することが可能となる。
請求項2に記載の情報処理システムによれば、取得手段が取得した未知語の内の、機械学習の対象にするものと判定した未知語に関する機械学習を学習済対象モデルについて行うことにより、例えば、未知語を適切に絞ることができるので、機械学習を行う時間を短縮することが可能となる。
請求項3に記載の情報処理システムによれば、品詞に関する基準に基づいて未知語を機械学習の対象にするか否かを判定することにより、例えば、機械学習の対象にするか否かを適切に判定することが可能となる。
請求項4に記載の情報処理システムによれば、出現頻度に関する基準に基づいて未知語を機械学習の対象にするか否かを判定することにより、例えば、機械学習の対象にするか否かを適切に判定することが可能となる。
請求項5に記載の情報処理システムによれば、第1文章情報において特定した重要単語又は重要フレーズに基づいて、第1文章情報から未知語を取得することにより、例えば、有用な未知語を取得することができるので、学習済対象モデルに基づいて行う処理の処理精度を向上させることが可能となる。
請求項に記載の情報処理システムによれば、第1文章情報はニュース記事のタイトルに対応する文章を示す情報であり、第2文章情報はニュース記事の本文に対応する文章を示す情報であることにより、例えば、未知語に関して適切に機械学習を行うことができるので、学習済対象モデルに基づいて行う処理の処理精度を向上させることが可能となる。
本発明の実施の形態が情報システムのブロック図である。 BERT用単語辞書情報を例示した図である。 サーバ装置に記録されている各モデルの説明図である。 形態素解析用辞書情報を例示した図である。 再学習用情報の説明図である。 再学習処理のフローチャートである。 重要フレーズが格納された状態の形態素解析用辞書情報を例示した図である。 処理例を例示した図である。 処理例を例示した図である。 処理例を例示した図である。 処理例を例示した図である。 未知語が新たに登録された状態のBERT用単語辞書情報を例示した図である。 学習済BERTモデル再学習処理のフローチャートである。 分類処理のフローチャートである。
以下、本発明に係る情報処理システム、及び情報処理プログラムの実施の形態について図面を参照しつつ詳細に説明する。ただし、実施の形態によって本発明が限定されるものではない。ここでは、基本的概念、及び用語を説明した後に、具体的な実施の形態について説明する。
(基本的概念)
まず、基本的概念について説明する。本発明に係る情報処理システムは、学習済対象モデルについて再度機械学習(つまり、「再学習」)を行うためのシステムであり、例えば、再度機械学習を行うための専用システム、あるいは、汎用的に用いられるシステム(一例としては、汎用コンピュータ、サーバコンピュータ、あるいは、ネットワーク上に分散配置された複数のコンピュータ(つまり、いわゆるクラウドコンピュータ)等)に対して、情報処理プログラムをインストールして再度機械学習を行うための機能を実装することにより実現されるシステム等を含む概念である。
「学習済対象モデル」とは、1個以上の単語に関する機械学習を行うことにより生成されるモデルであって、単語の特徴を示す数値情報を出力するモデルである。「単語の特徴を示す数値情報」とは、例えば、単語の特徴を示す分散表現に対応する数値情報であり、すなわち、単語の分散表現に対応するベクトル情報を示す数値情報等を含む概念である。「単語の特徴」とは、単語の意味に対応する概念であるものと解釈してもよい。学習済対象モデルは任意であるが、例えば、公知のBERT(Bidirectional Encoder Representations from Transformers)に対応する自然言語処理のモデル、あるいは、前述の定義に従う他の任意のモデル等を含む概念である。
情報処理システムは、例えば、取得手段、及び学習手段を備え、任意で格納手段を備える。
===各手段===
「取得手段」とは、学習済対象モデルにおいて機械学習の対象となっていない未知語を、第1文章情報から取得する手段である。また、「取得手段」とは、例えば、所定の特定基準に基づいて、第1文章情報において重要単語又は重要フレーズを特定し、特定した重要単語又は重要フレーズに基づいて、第1文章情報から未知語を取得する手段等を含む概念である。また、「取得手段」とは、例えば、第1文章情報に含まれる単語の内の、単語辞書情報に記録されている単語以外の単語を、未知語として取得する手段等を含む概念である。
「学習手段」とは、第2文章情報を用いて、学習済対象モデルについて、少なくとも取得手段が取得した未知語に関する機械学習を行う手段である。また、「学習手段」とは、例えば、所定の判定基準に基づいて、取得手段が取得した未知語を機械学習の対象にするか否かを判定し、取得手段が取得した未知語の内の、機械学習の対象にするものと判定した未知語に関する機械学習を学習済対象モデルについて行う手段等を含む概念である。
また、「学習手段」とは、例えば、取得手段が取得した未知語の品詞に関する基準に基づいて、取得手段が取得した未知語を機械学習の対象にするか否かを判定する手段等を含む概念である。また、「学習手段」とは、例えば、取得手段が取得した未知語の、第1文章情報又は第2文章情報内での出現頻度に関する基準に基づいて、取得手段が取得した未知語を機械学習の対象にするか否かを判定する手段等を含む概念である。
また、「学習手段」とは、例えば、取得手段が取得した未知語を単語辞書情報に新たに記録し、第2文章情報を用いて、学習済対象モデルについて、少なくとも単語辞書情報に新たに記録した未知語に関する機械学習を行う手段等を含む概念である。
「格納手段」とは、学習済対象モデルで一意に識別される単語が記録されている単語辞書情報を格納する手段である。
===各用語===
「未知語」とは、学習済対象モデルにおいて機械学習の対象となっていない単語であり、具体的には、学習済対象モデルにおいて一意に識別可能となっていない単語等を含む概念であり、例えば、単語辞書情報に記録されていない単語等を含む概念である。
「単語辞書情報」とは、例えば、学習済対象モデルで一意に識別される単語が記録されている情報である。例えば、学習済対象モデルを用いて処理を行う場合、この単語辞書情報に記録されている単語については、一意に識別して当該単語の特徴を示す数値情報を出力することが可能となる。
「所定の特定基準」とは、第1文章情報において重要単語又は重要フレーズを特定するための基準である。「単語」とは、例えば、意味又は機能をもった最小単位等を含む概念であるものと解釈してもよく、また、「フレーズ」とは、例えば、複数個分の単語に対応する概念であるものと解釈してもよい。すなわち、例えば、「フレーズ」とは、2語以上の単語に対応する概念であるものと解釈してもよい。
「所定の判定基準」とは、未知語を機械学習の対象にするか否かを判定するための基準である。この判定基準は任意であるが、例えば、未知語の品詞に関する基準、未知語の出現頻度に関する基準、これらの組み合わせ、あるいは、その他の基準等を含む概念である。
「第1文章情報」とは、例えば、少なくとも未知語を取得される対象となる文章(つまり、1個以上の文の集合)を示す情報であり、一例としては、ニュース記事のタイトルに対応する文章を示す情報等を含む概念である。「第2文章情報」とは、例えば、学習済対象モデルについて少なくとも未知語に関する機械学習を行うための情報であり、一例としては、ニュース記事の本文に対応する文章を示す情報等を含む概念である。なお、第1文章情報及び第2文章情報としては、ニュース記事に関する情報以外の任意の情報(例えば、ブログに関する情報、あるいは、公知のコーパス情報等)を用いてもよい。
前述の学習済対象モデル(再学習された学習済対象モデルを含む)の直接的な又は間接的な利用例は任意であり、自然言語処理に関する様々なタスクを実行する処理に利用することができ、例えば、分類、予測、生成等に関する様々なタスクを実行するために学習済対象モデルを利用してもよく、すなわち、学習済対象モデルを利用して、読解、含意、換言、対話、要約、又は翻訳等の任意の処理を行うように構成してもよい。
そして、以下に示す実施の形態では、例えば、ニュース記事をカテゴリに分けるタスク(つまり、分類タスク)に、学習済対象モデルを再学習して利用する場合を例示して説明する。なお、「カテゴリ」とは、ニュース記事の記載内容に基づく分類のグループであり、本実施の形態では、所定個数(例えば、10個〜20個等)のカテゴリ(一例としては、「製品紹介」のカテゴリ、「製品比較」のカテゴリ等)が予め定められており、各ニュース記事を何れかのカテゴリに分ける場合を例示して説明する。
(構成)
まず、本実施の形態に係る情報システムについて説明する。図1は、本発明の実施の形態が情報システムのブロック図である。
情報システム100は、例えば、端末装置1、及びサーバ装置2を備える。なお、端末装置1の個数は任意であり、複数個設けてもよいが、図1に図示されているものに着目して説明する。
(構成−端末装置)
端末装置1は、ユーザによって用いられる装置であり、具体的には、サーバ装置2に対してネットワークを介して通信可能に接続されている装置であり、例えば、パーソナルコンピュータ等を含むコンピュータである。なお、端末装置1の具体的な構成は任意であるが、例えば、公知のパーソナルコンピュータの構成を適用することができる。
(構成−サーバ装置)
サーバ装置2は、情報処理システムであり、例えば、通信部21、記録部22、及び制御部23を備える。
(構成−サーバ装置−通信部)
図1の通信部21は、外部装置(例えば、端末装置1)との間で通信するための通信手段である。この通信部21の具体的な種類や構成は任意であるが、例えば、公知の通信回路等を用いて構成することができる。
(構成−サーバ装置−記録部)
図1の記録部22は、サーバ装置2の動作に必要なプログラム及び各種のデータを記録する記録手段(格納手段)であり、例えば、外部記録装置としてのハードディスク又はフラッシュメモリ(図示省略)を用いて構成されている。ただし、ハードディスク又はフラッシュメモリに代えてあるいはハードディスク又はフラッシュメモリと共に、磁気ディスクの如き磁気的記録媒体、又はDVDやブルーレイディスクの如き光学的記録媒体を含む、その他の任意の記録媒体を用いることができる。
記録部22には、例えば、図1に示すように、BERT用単語辞書情報、学習済BERTモデル、タスクモデル、形態素解析用単語辞書情報、再学習用情報、及び分類対象情報が格納されている。
(構成−サーバ装置−記録部−BERT用単語辞書情報)
図1の「BERT用単語辞書情報」とは、前述の単語辞書情報であり、学習済BERTモデルで一意に識別される単語が記録されている情報であり、例えば、各単語を、当該各単語を識別するための単語IDに変換するための情報である。
図2は、BERT用単語辞書情報を例示した図である。このBERT用単語辞書情報は任意であるが、例えば、学習済BERTモデルで一意に識別される単語等が各行に1個ずつ記録されているテキストファイルであり、一例としては、図2に示すように、1行目〜4行目等に「UNK」、「来年」、「第5世代通信」、「と」等が格納されているテキストファイルであることとして説明する。なお、ここでの「UNK」については、他の単語(「来年」、「第5世代通信」、「と」等)とは異なる性質の情報であり、BERT用単語辞書情報に具体的に格納(記録)されている単語以外の単語を、単語IDに変換するための情報である。
なお、BERT用単語辞書情報を用いて単語IDに変換する具体的な処理は任意であるが、例えば、制御部23が、図2のBERT用単語辞書情報において、変換の対象となる単語と同じ単語を特定し、当該特定した単語が記録されている図2のBERT用単語辞書情報であるファイル中の行番号(つまり、何行目であるか)に対応する単語IDに変換するものとして、以下説明する。
ここでは、例えば、「来年」については、図2のBERT用単語辞書情報において2行目に記録されているので、当該2行目に対応する単語IDである「ID2」(便宜上の記載)に変換し、また、同様にして、「第5世代通信」及び「と」については「ID3」(3行目に対応する単語ID)及び「ID4」(4行目に対応する単語ID)に変換することになる。一方で、「〇〇サービス」、「△△プラン」、及び「××データ」が図2のBERT用単語辞書情報に格納されていない場合、これらの単語は全て図2のBERT用単語辞書情報の「UNK」が格納されている1行目に対応する「ID1」に変換することになる。
そして、このようなBERT用単語辞書情報の具体的な格納手法は任意であるが、例えば、機械学習(つまり、初回の機械学習)を行うことにより学習済BERTモデルを生成する場合に、当該機械学習で学習の対象となる所定個数分(例えば、「UNK」を含めて32000個分)の単語等が、BERT用単語辞書情報の初期値として格納される。そして、この後に後述する再学習処理を行うことにより、適宜追加の単語が当該BERT用単語辞書情報に格納されることになる。
学習済BERTモデルを生成するための機械学習(つまり、初回の機械学習)は公知であるので、概要のみ説明する。具体的には、大量の学習用データとしてニュース記事、又は論文記事等の任意の文章を入力した場合に、制御部23が、当該入力された情報から任意の手法で、BERT用単語辞書情報に初期値として格納するべき個数の単語(例えば、「UNK」を除く31999個の単語)を取得し、取得した単語をBERT用単語辞書情報に初期値として格納し、当該BERT用単語辞書情報を用いて前述の入力された文章の各文に含まれる単語の並びを単語IDの並びに変換し、当該変換された単語IDの並びに基づいて機械学習を行うことにより、学習済BERTモデルを生成することとする。このように処理することにより、単語IDの並びが示す前述の入力された文章中の各文における単語の並び(つまり、文脈)を考慮した機械学習が行われることになり、当該機械学習により学習済BERTモデルが生成されることになる。
なお、前述したように、BERT用単語辞書情報を利用して変換した単語IDを用いて行われる機械学習により、学習済BERTモデルが生成されるので、BERT用単語辞書情報には、学習済BERTモデルで一意に識別される単語等が格納されることになる。
なお、BERT用単語辞書情報の初期値については、その他の様々な手法で格納されることとしてもよく、例えば、管理者が決定した情報を任意の手法(例えば、サーバ装置2の不図示の入力手段(キーボード又はマウス等)を用いる手法、あるいは、メモリスティック等の記録媒体を用いる手法等)でサーバ装置2に入力し、当該入力された情報がBERT用単語辞書情報の初期値として記録されることとしてもよい。また、この場合、制御部23は、当該BERT用単語辞書情報の初期値(つまり、管理者が決定した情報に対応する情報)に基づいて、前述の入力された文章の各文に含まれる単語の並びを単語IDの並びに変換した上で、学習済BERTモデルを生成することとしてもよい。
また、学習済BERTモデルを生成する装置はサーバ装置2に限らず、他の装置において、BERT用単語辞書情報を適宜用いて学習済BERTモデルを生成した上で、当該生成した学習済BERTモデルを前述のBERT用単語辞書情報(学習済BERTモデルの生成時に用いられたBERT用単語辞書情報)と共にサーバ装置2に入力して格納してもよい。
(構成−サーバ装置−記録部−学習済BERTモデル)
図3は、サーバ装置に記録されている各モデルの説明図である。図1の「学習済BERTモデル」とは、例えば、図3の「モデル」=「学習済BERTモデル」の欄に図示されているように、単語IDの並びが入力され、当該入力された単語ID各々に対応する分散表現数値情報の並びを出力するモデルである。なお、「分散表現数値情報」とは、単語IDが識別する単語の分散表現に対応する数値情報を示す概念である。
そして、このような学習済BERTモデルの具体的な格納手法は任意であるが、例えば、前述の「初回の機械学習」を行うことにより生成されて格納され、この後、後述する再学習処理(図6)を行うことにより更新されることになり、更にこの後に、タスクモデルを生成する場合に利用される情報(つまり、例えばニュース記事のタイトルの文章)を用いて再度機械学習を行って更新されることになる。そして、本実施の形態では、説明の便宜上、各段階での学習済モデルを区別して説明する必要がある場合、前述の「初回の機械学習」を行って生成された学習済BERTモデルを「事前学習済BERTモデル」と称し、また、後述する再学習処理(図6)を行うことにより更新された学習済BERTモデルを「未知語学習済BERTモデル」と称し、また、タスクモデルを生成する場合に利用される情報(つまり、例えばニュース記事のタイトルの文章)を用いて再度機械学習を行って更新された学習済BERTモデルを「分類学習済BERTモデル」と称する。
また、本実施の形態では、「事前学習済BERTモデル」が「学習済対象モデル」に対応するものと解釈してもよい。なお、この対応関係の解釈に限定せずに、例えば、再学習処理(図6)を実行する対象となる学習済BERTモデルに応じて他の解釈を適用することもできる。
なお、「分類学習済BERTモデル」を更新するために行われる、タスクモデルを生成する場合に利用される情報(つまり、例えばニュース記事のタイトルの文章)を用いて行われる「未知語学習済BERTモデル」に対する機械学習は、前述の「初回の機械学習」(つまり、「事前学習済BERTモデル」を生成するための機械学習)と同様に公知であるので、詳細の説明は省略して概要のみを説明する。すなわち、この機械学習の処理においては、BERT用単語辞書情報に対する情報の追加等は行わずに、「未知語学習済BERTモデル」を、タスクモデルを生成する場合に利用される情報(例えばニュース記事のタイトルの文章)側に寄せて(つまり、タスクモデルを生成する場合に利用される情報に特化させて)、「分類学習済BERTモデル」に更新することになる。
(構成−サーバ装置−記録部−タスクモデル)
図1の「タスクモデル」とは、タスクを実行するためのモデルであり、具体的には、学習済BERTモデル(詳細には、例えば「分類学習済BERTモデル」)を用いて行わる処理結果を利用してタスクを実行するためのモデルであり、本実施の形態では、ニュース記事をカテゴリに分けるタスクを実行するためのモデルである。このタスクモデルは、例えば、図3の「モデル」=「タスクモデル」の欄に図示されているように、分散表現数値情報の並びが入力され、当該入力された分散表現数値情報の並びが属するカテゴリを示す情報(つまり、一例としては、ニュース記事が属するカテゴリを示す情報であり、ニュース記事がどのカテゴリに属するかを示す情報)を出力するモデルである。なお、ここで説明したように、タスクモデルについては、例えば「分類学習済BERTモデル」を用いて行われる処理の結果を利用して実行することが好ましいが、例えば、「未知語学習済BERTモデル」を用いて行われる処理の結果を利用して実行してもよい。
そして、このようなタスクモデルの具体的な格納手法は任意であるが、例えば、ニュース記事のタイトルの文章と、当該ニュース記事が属するカテゴリを示す情報とを用いて、教師ありの機械学習を行うことによりタスクモデルを生成し、当該生成したタスクモデルが格納されることとしてもよい。なお、このタスクモデルについては、サーバ装置2において生成してもよいし、あるいは、他の装置で生成してもよい。
(構成−サーバ装置−記録部−形態素解析用単語辞書情報)
図1の「形態素解析用単語辞書情報」とは、文を単語に分割するための形態素解析において用いられる情報である。図4は、形態素解析用辞書情報を例示した図である。この形態素解析用単語辞書情報においては、例えば図4に示すように、項目「単語情報」に対応する情報と、項目「品詞情報」に対応する情報と、項目「読み情報」に対応する情報とが相互に関連付けられている。
項目「単語情報」に対応する情報は、単語を示す単語情報である(図4では、「ABフォン」等)。項目「品詞情報」に対応する情報は、単語の品詞を示す品詞情報である(図4では、「名詞」、不図示の「動詞」、「助動詞」等)。項目「読み情報」に対応する情報は、単語の読みを示す読み情報である(図4では、「エービーフォン」等)。
そして、この図4の形態素解析用単語辞書情報の例えば最上段の情報(「ABフォン」、「名詞」、及び「エービーフォン」の組み合わせの情報)については、「ABフォン」という単語の品詞が「名詞」であり、また、当該「ABフォン」の読みが「エービーフォン」であることが示されている。なお、この形態素解析用単語辞書情報の格納手法は任意であるが、例えば、任意の手法でサーバ装置2に情報を入力することにより格納されることとしてもよい(後述する再学習用情報、及び分類対象情報も同様である)。
(構成−サーバ装置−記録部−再学習用情報)
図1の「再学習用情報」とは、学習済BERTモデルの再学習のために用いられる情報であり、例えば、後述する再学習処理(図6)で用いられる情報である。図5は、再学習用情報の説明図である。この再学習用情報としては任意の情報を用いることができるが、例えば、後述する分類対象情報に関連する情報を用いてもよいし、あるいは、関連しない情報を用いてもよいが、本実施の形態では、分類対象情報が通信分野に属するニュース記事であり、再学習用情報としては、この分類対象情報が属する分野と同じ分野である通信分野のニュース記事を用いる場合について説明する。ここでは、例えば、図5に示すように、ニュース記事がタイトルと本文とによって構成されており、「記事番号」=「1」に対応する記事(つまり、タイトルが「ABフォンXRとBCフォンを比べた!」であり、本文が「先日リリースされたABフォンXRとBCフォンのスペックは・・・である。そして、これらを比較すると、・・・・が優位である。」である記事)、「記事番号」=「2」に対応する記事(つまり、タイトルが「第5世代通信時代をリードするBBが登場した。」であり、本文が「第5世代通信時代のサービスが昨年のxx月に開始したが、このサービスが普及すると、・・・となる。」である記事)、及び「記事番号」=「3」、「4」等に対応する記事を含む複数の通信分野の記事が再学習用情報として格納されている場合について説明する。
なお、ここでの「再学習用情報」であるニュース記事のタイトルが「第1文章情報」に対応し、また、当該ニュース記事の本文が「第2文章情報」に対応するものと解釈してもよい。
(構成−サーバ装置−記録部−分類対象情報)
図1の「分類対象情報」とは、学習済BERTモデル(詳細には、例えば「分類学習済BERTモデル」)及びタスクモデルを用いてカテゴリに分けられる対象となる情報である。この分類対象情報としては任意の情報を用いることができるが、例えば、前述したように、通信分野に属するニュース記事であり、図5に例示されている再学習用情報としてのニュース記事と同様な形式の他の情報であり、すなわち、タイトルと本文とによって構成されている他のニュース記事を示す情報を用いることとする。なお、この分類対象情報としてのニュース記事の個数は任意であるが、例えば、数百個〜数千個、あるいは、数万個のニュース記事が格納されていることとしてもよい。
(構成−サーバ装置−制御部)
図1の制御部23は、サーバ装置2を制御する制御手段であり、具体的には、CPU、当該CPU上で解釈実行される各種のプログラム(OSなどの基本制御プログラムや、OS上で起動され特定機能を実現するアプリケーションプログラムを含む)、及びプログラムや各種のデータを格納するためのRAMの如き内部メモリを備えて構成されるコンピュータである。特に、実施の形態に係るプログラムは、任意の記録媒体又はネットワークを介してサーバ装置2にインストールされることで、制御部23の各部を実質的に構成する。
この制御部23は、機能概念的に、例えば、取得部231、及び学習部232を備える。取得部231は、学習済BERTモデルにおいて機械学習の対象となっていない未知語を、第1文章情報(再学習用情報であるニュース記事のタイトルに対応する文章)から取得する取得手段である。学習部232は、第2文章情報(再学習用情報であるニュース記事の本文に対応する文章)を用いて、学習済BERTモデルについて、少なくとも取得部231が取得した未知語に関する機械学習を行う学習手段である。なお、このような制御部23の各部によって行われる処理については、後述する。
(処理)
次に、このように構成される情報システム100によって行われる処理として、例えば、再学習処理、及び分類処理について説明する。
(処理−再学習処理)
図6は、再学習処理のフローチャートである(以下では、各ステップを「S」と称する)。再学習処理は、サーバ装置2で行われる処理であり、概略的には、機械学習を行うことにより生成された学習済BERTモデルについて再学習する処理である。この再学習処理を実行するタイミングは任意であるが、例えば、新たな分野の多数のニュース記事が分類対象情報(図1)として入力されて記録され、後述する分類処理(つまり、当該ニュース記事をカテゴリに分ける処理)を行う前の所定のタイミングであって、当該分類対象情報と同じ分野の他の多数のニュース記事が再学習用情報(図1)として入力されて記録された後の、所定のタイミング(例えば、ユーザが端末装置1を介して再学習処理を実行する操作を行ったタイミング等)に、起動することとし、再学習処理が起動したところから説明する。
ここでは、例えば、前述の図1の記録部22において、「初回の機械学習」を行うことにより、前述の初期値がBERT用単語辞書情報として記録されており、学習済BERTモデルとして「事前学習済BERTモデル」が記録されている場合を例示して説明する。また、例えば、分類対象情報が通信分野のニュース記事であるので、当該通信分野に関する単語について適切に分散表現数値情報を出力できるように、当該通信分野の他のニュース記事を用いて学習済BERTモデル(詳細には、「事前学習済BERTモデル」)を再学習して「未知語学習済BERTモデル」に更新する場合を例示して説明する。なお、実際には、サーバ装置2では、多数の情報を取り扱うことになるが、以下の説明では、説明の便宜上、一部の情報の取り扱いを例示して説明する。
===SA1===
図6のSA1において取得部231は、再学習用情報を取得する。具体的には任意であるが、例えば、図1の記録部22に再学習用情報として記録されているニュース記事のタイトルを取得する。
ここでは、例えば、図5に例示されている「記事番号」=「1」〜「4」等のニュース記事のタイトルを取得する。すなわち、「ABフォンXRとBCフォンを比べた!」、及び「第5世代通信時代をリードするBBが登場した。」等の複数の文を含む文章情報を取得する。
===SA2===
図6のSA2において取得部231は、SA1で取得した再学習用情報の中から重要単語及び重要フレーズを取得する。具体的には任意であるが、例えば、SA1で取得したニュース記事のタイトルについて、単語に分割する処理、及び重要単語及び重要フレーズを取得する処理を行う。
=単語に分割する処理=
単語に分割する処理とは、文を単語に分割する処理であり、例えば、形態素解析に基づいて行われる処理である。この処理については例えば、図4の形態素解析用単語辞書情報を参照して、SA1で取得したニュース記事のタイトルについて、当該形態素解析用単語辞書情報の単語情報が特定する単語と同じ単語を、1個の単語として分割する。
ここでは、例えば、SA1で取得したニュース記事のタイトルにおける「ABフォンXR」という用語は、新製品の名称であり当該ニュース記事では1個の固有名詞として記載されている用語であるものの、図4の形態素解析用単語辞書情報の単語情報としては、「ABフォンXR」自体は格納されていないものとする。また、「第5世代通信時代」についても、「ABフォンXR」と同様であることとする。図8は、処理例を例示した図である。この場合、例えば、SA1で取得した「ABフォンXRとBCフォンを比べた!」、及び「第5世代通信時代をリードするBBが登場した。」等について、例えば、図8の上段に示すように、「ABフォン,XR,と,BCフォン,を,比べ,た,!」、及び「第5世代通信,時代,を,リードする,BB,が,登場,した,。」等に分割する。なお、「,」については、分割された単語間の区切りを示すものとする。
=重要単語及び重要フレーズを取得する処理=
重要単語及び重要フレーズを取得する処理とは、「単語に分割する処理」で分割した単語に関して、前述の所定の特定基準に基づいて、重要単語及び重要フレーズを特定して、特定した重要単語及び重要フレーズを取得する処理である。
この所定の特定基準としては任意の基準を適用であるが、例えば、「Positionrank」又は「TF(Term Frequency)−IDF(Inverse Document Frequency)」の概念に基づく基準を適用してもよい。これらの基準としては、公知の概念を適用できるので、概要のみ説明する。
<Positionrank>
「Positionrank」に基づく基準とは、例えば、複数の文を含む文章中の単語又はフレーズ(ここでの「フレーズ」は、連続する複数個(一例としては2個)の単語であるものと解釈する)相互間に関連度の高い単語又はフレーズ程重要度が高いものとして、各単語又は各フレーズにおいて、重要度のランキングを付し、当該ランキングの上位のものを重要単語又は重要フレーズとする基準等を含む概念である。なお、各単語又は各フレーズにおける相互間の関連度は公知の手法を含む任意の手法で定めることができるが、例えば、共起幅(つまり、連続する単語の個数(一例としては3個〜5個等))を設定し、共通する共起幅内に含まれる単語同士は、より関連度が高いものとして、一例としては数値を用いて関連度を定めてもよい。
<TF−IDF>
「TF−IDF」に基づく基準とは、例えば、複数の文を含む文章(例えば、第1文章情報)中の各文中において出現頻度が高い単語又はフレーズ程重要度(重要性の度合い)が高く、また、出現する文の個数が少ない程単語又はフレーズ程重要度が高いものとして、所定の重要度以上の単語又はフレーズを重要単語又は重要フレーズとする基準等を含む概念である。
なお、ここで説明した基準以外の他の基準を用いて、重要単語及び重要フレーズを特定してもよい。そして、ここでは、例えば、「単語に分割する処理」で分割した単語に関して、図8の下段に示すように、重要単語として「BCフォン」及び「BB」等を特定して取得し、また、重要フレーズとして「ABフォンXR」(つまり、「ABフォン,XR」に対応するフレーズ)及び「第5世代通信時代」(つまり、「第5世代通信,時代」に対応するフレーズ)等を特定して取得する。
===SA3===
図6のSA3において取得部231は、SA1で取得した再学習用情報の中から未知語を取得する。具体的には任意であるが、例えば、SA1で取得したニュース記事のタイトルについて、単語に分割する処理、及び未知語を取得する処理を行う。
=単語に分割する処理=
SA2の単語に分割する処理と同様な処理を行う。ここでは、例えば、図8の上段に示すように、「ABフォン,XR,と,BCフォン,を,比べ,た,!」、及び「第5世代通信,時代,を,リードする,BB,が,登場,した,。」等に分割する。
=未知語を取得する処理=
未知語を取得する処理とは、「単語に分割する処理」で分割した単語の中から、未知語を特定して取得する処理である。この処理については例えば、図1の記録部22に記録されているBERT用単語辞書情報を参照して、「単語に分割する処理」で分割した単語の内の、当該BERT用単語辞書情報に記録されていない単語を、未知語として特定した上で取得する。
ここでは、例えば、図1及び図2のBERT用単語辞書情報に、「ABフォン」、「XR」、「BCフォン」、及び「!」が記録されていない場合について説明する。図9は、処理例を例示した図である。この場合、図9に示すように、「ABフォン」、「XR」、「BCフォン」、及び「!」を未知語として取得する。
===SA4===
図6のSA4において取得部231は、重要フレーズを図1の形態素解析用単語辞書情報に追加して格納する。具体的には任意であるが、例えば、SA2で取得した重要フレーズの内の、SA3で取得した未知語のみによって構成されている重要フレーズを特定し、特定した重要フレーズを図4の形態素解析用単語辞書情報の単語情報として記録し、また、当該記録した単語情報に関連付けられている品詞情報及び読み情報を格納する。なお、品詞情報及び読み情報の格納手法は任意であり、例えば、任意の手法で品詞及び読みを推定して自動的に格納することとしてもよいし、あるいは、ユーザに対して品詞及び読みに関する情報の入力を促すメッセージを不図示のディスプレイに表示し、この後に、ユーザから入力された情報に基づいて格納することとしてもよい。
図7は、重要フレーズが格納された状態の形態素解析用辞書情報を例示した図である。ここでは、例えば、SA2で取得した重要フレーズが「ABフォンXR」及び「第5世代通信時代」等であり、また、SA3で取得した未知語が「ABフォン」、「XR」、「BCフォン」、及び「!」等である。そして、「ABフォンXR」はSA3で取得した未知語である「ABフォン」及び「XR」のみによって構成されており、一方、「第5世代通信時代」はSA3で取得した未知語のみによって構成されているわけではないので、「ABフォンXR」を図7の形態素解析用単語辞書情報に追加して格納する。このようにして、図7の最下段の情報である「ABフォンXR」に関する情報が、形態素解析用単語辞書情報に新たに登録されることになる。
===SA5===
図6のSA5において取得部231は、SA1で取得した再学習用情報の中から未知語を取得する。具体的には任意であるが、例えば、SA1で取得したニュース記事のタイトルについて、単語に分割する処理、及び未知語を取得する処理を行う。
=単語に分割する処理=
基本的にはSA2の単語に分割する処理と同様な処理を行うが、特に、SA4で重要フレーズが追加された図7の形態素解析用単語辞書情報に基づいて処理を行う。
図10は、処理例を例示した図である。ここでは、例えば、SA1で取得した「ABフォンXRとBCフォンを比べた!」、及び「第5世代通信時代をリードするBBが登場した。」等について、例えば、図10の上段に示すように、「ABフォンXR,と,BCフォン,を,比べ,た,!」、及び「第5世代通信,時代,を,リードする,BB,が,登場,した,。」等に分割する。特に、図7の形態素解析用単語辞書情報の単語情報として、「ABフォンXR」が格納されているので、SA2又はSA3の「単語に分割する処理」の場合とは異なり、当該「ABフォンXR」を1個の単語として分割することになる。
=未知語を取得する処理=
SA3の未知語を取得する処理と同様な処理を行う。ここでは、例えば、未知語を取得する処理とは、「単語に分割する処理」で分割した単語の中から、未知語を特定して取得する処理である。この処理については例えば、図1の記録部22に記録されているBERT用単語辞書情報を参照して、「単語に分割する処理」で分割した単語の内の、当該BERT用単語辞書情報に記録されていない単語を、未知語と特定して取得する。図1及び図2のBERT用単語辞書情報に、「ABフォンXR」、「BCフォン」、及び「!」が記録されていない場合について説明する。この場合、図10の下段に示すように、「ABフォンXR」、「BCフォン」、及び「!」等を未知語として取得する。
===SA6===
図6のSA6において取得部231は、SA5で取得した未知語の中から、再学習の候補とする未知語を取得する。すなわち、例えば、SA5で取得した未知語の中から、学習済BERTモデル(詳細には、例えば「事前学習済BERTモデル」)を、再学習することにより通信分野側に寄せる効果が比較的高いものと推定される未知語を取得する。具体的には任意であるが、例えば、SA5で取得した未知語の中から、SA2で取得した重要単語又は重要フレーズに合致する未知語のみを取得する。
ここでは、例えば、SA5で取得した未知語が、図10の下段に示すように、「ABフォンXR」、「BCフォン」、及び「!」等であり、図8の下段に示すように、SA2で取得した重要単語が「BCフォン」及び「BB」等であり、また、SA2で取得した重要フレーズが「ABフォンXR」及び「第5世代通信時代」等であり、一方、「!」は重要単語又は重要フレーズではない。図11は、処理例を例示した図である。よって、SA6においては、「ABフォンXR」、「BCフォン」、又は「!」等の内の、図11に示すように、「ABフォンXR」、及び「BCフォン」等を取得する(つまり、「!」は不要として排除する)。
===SA7===
図6のSA7において学習部232は、SA6で取得した未知語の中に、再学習(つまり、再度の機械学習)の対象にする未知語が存在するか否かを判定する。具体的には任意であるが、例えば、前述の所定の判定基準に基づいて、各未知語について機械学習の対象にするか否かを判定し、判定結果に基づいて判定する。
この所定の判定基準としては任意の基準を適用であるが、例えば、前述の未知語の品詞に関する基準、及び未知語の出現頻度に関する基準を適用する場合について説明する。
=未知語の品詞に関する基準=
「未知語の品詞に関する基準」とは、未知語が所定に品詞であるか否かに基づいて判定する基準であり、本実施の形態では、所定の品詞が名詞である場合について説明する。
=未知語の出現頻度に関する基準=
「未知語の出現頻度に関する基準」とは、未知語が所定回数以上出現するか否かに基づいて判定する基準であり、具体的には、図1の記録部22に記録されている再学習用情報であるニュース記事のタイトル又は当該ニュース記事の本文中において、未知語が所定回数以上を出現するか否かに基づいて判定する基準であり、本実施の形態では、所定回数が5回である場合について説明する。
=各基準のバリエーション=
なお、これらの基準については、様々なバリエーションが想定され、これらのバリエーションを任意に適用してもよい。「未知語の品詞に関する基準」については、例えば、名詞以外の1個以上の任意の品詞(例えば、動詞、形容詞等)を所定の品詞として用いてもよい。
また、「未知語の出現頻度に関する基準」については、例えば、再学習用情報であるニュース記事のタイトルのみにおいて、未知語が所定回数以上を出現するか否かに基づいて判定する基準であることとしてもよいし、再学習用情報であるニュース記事の本文のみにおいて、未知語が所定回数以上を出現するか否かに基づいて判定する基準であることとしてもよいし、再学習用情報であるニュース記事のタイトルのみにおいて、未知語が所定回数以上を出現し、且つ、当該ニュース記事のタイトルのみにおいて、未知語が所定回数以上を出現するか否かに基づいて判定する基準であることとしてもよいし、再学習用情報であるニュース記事のタイトル又は本文において、未知語が合計所定回数以上を出現するか否かに基づいて判定する基準であることとしてもよい。
また、「未知語の出現頻度に関する基準」における所定回数については、前述の「未知語の品詞に関する基準」における所定の品詞に応じて定めてもよい。また、これらの各基準の所定回数又は所定の品詞については、図1の再学習用情報又は分類対象情報が示すニュース記事が所属する分野に応じて定めてもよいし、あるいは、任意の最適化手法(例えば、ベイズ最適化、ネルダーミードに対応する手法)を用いて定めてもよい。
=本実施の形態で適用する基準=
そして、本実施の形態では、「未知語の品詞に関する基準」としては、未知語が名詞であるか否かに基づいて判定する基準を用い、また、「未知語の出現頻度に関する基準」については、再学習用情報であるニュース記事のタイトルのみにおいて、未知語が5回以上を出現し、且つ、当該ニュース記事の本文のみにおいて、未知語が5回以上を出現するか否かに基づいて判定する基準を用いる場合について説明する。
=SA7の具体的な処理=
SA7の処理について具体的には、まず、SA6で取得した各未知語の品詞を、任意の手法(例えば、図7の形態素解析用単語辞書情報を参照して特定する手法等)を用いて特定し、また、図1の記録部22に記録されている再学習用情報が示すニュース記事のタイトル及び当該ニュース記事の本文を取得し、SA6で取得した各未知語について、当該タイトル中での出現頻度、及び当該本文中の出現頻度を特定する。次に、SA6で取得した各未知語について、前述の特定した品詞が「名詞」であり、且つ、前述の特定したタイトル中での出現頻度が「5回」以上であり、且つ、前述の特定した本文中での出現頻度が「5回」以上である場合、再学習の対象にする未知語(以下、「再学習対象未知語」とも称する)であるものと判定する。一方、SA6で取得した各未知語について、前述の特定した品詞が「名詞」ではない場合、前述の特定したタイトル中での出現頻度が「5回」未満である場合、又は、前述の特定した本文中での出現頻度が「5回」未満である場合、再学習の対象としない未知語(以下、「非対象未知語」とも称する)であるものと判定する(つまり、再学習の対象とする未知語でないものと判定する)。
そして、SA6で取得した未知語において、「再学習対象未知語」と判定した未知語が存在しない場合(つまり、全ての未知語について「非対象未知語」であるものと判定した場合)、SA6で取得した未知語の中に、再学習の対象にする未知語が存在しないものと判定し(SA7のNO)、処理を終了する。一方、SA6で取得した未知語において、「再学習対象未知語」と判定した未知語が存在する場合、SA6で取得した未知語の中に、再学習の対象にする未知語が存在するものと判定し(SA7のYES)、SA8に移行する。
ここでは、例えば、再学習用情報が示すニュース記事のタイトル及び本文の両方において、「ABフォンXR」が多数個(例えば、20個等)含まれており、「BCフォン」が3個のみ含まれているために、「ABフォンXR」が前述のタイトル及び本文において5回以上ずつ出現し、一方、「BCフォン」が5回未満のみしか出現しない場合について説明する。この場合、SA6で取得した各未知語である「ABフォンXR」、及び「BCフォン」の品詞を、図7の形態素解析用単語辞書情報の単語情報及び品詞情報を参照して、両方とも「名詞」と特定する。次に、「ABフォンXR」については、再学習用情報が示すニュース記事のタイトル中での出現頻度を「20回」と特定し、また、当該ニュース記事の本文中の出現頻度も「20回」と特定した上で、「再学習対象未知語」であるものと判定する。一方、「BCフォン」については、タイトル中及び本文中での出現頻度を「3回」と特定した上で、「非対象未知語」であるものと判定する。そして、少なくとも「ABフォンXR」について「再学習対象未知語」であるものと判定したので、SA6で取得した未知語の中に、再学習の対象にする未知語が存在するものと判定する(SA7のYES)。
===SA8===
図6のSA8において学習部232は、未知語の登録等を行う。具体的な処理は任意であるが、例えば、SA7において「再学習対象未知語」であるものと判定した未知語を特定し、特定した未知語を図1の記録部のBERT用単語辞書情報に追加で記録することにより登録する。
図12は、未知語が新たに登録された状態のBERT用単語辞書情報を例示した図である。ここでは、例えば、SA7において「再学習対象未知語」であるものと判定した「ABフォンXR」を特定し、特定した「ABフォンXR」を、図2の記録部のBERT用単語辞書情報であるテキストファイルの最下段に追加で記録することにより、図12に示すように登録する。
なお、この場合、レイヤーサイズの変更に対応する処理も行う。「レイヤーサイズの変更に対応する処理」とは、BERTに関連する公知の処理であり、例えば、BERT用単語辞書情報の内の、BERTに関する処理(再学習又は分類の処理等)で用いられる情報の範囲を変更する処理であり、具体的には、SA8で新たに登録された「ABフォンXR」についてもBERTに関する処理で用いられるように設定を変更する処理である。詳細には、「ABフォンXR」の追加前は、初期値としてBERT用単語辞書情報には、32000個分の単語(つまり、32000行の情報)が格納されており、当該32000個分の単語を利用してBERTに関する処理を行う設定となっており、「ABフォンXR」を追加することにより、BERT用単語辞書情報に当該「ABフォンXR」を含めて32001個分の単語(つまり、32001行の情報)が格納されることになるので、この追加された「ABフォンXR」も含めて情報を全て利用できるように、当該32001個分の単語を利用してBERTに関する処理を行うように設定を変更する。
===SA9===
図6のSA9において学習部232は、学習済BERTモデル再学習処理を実行する。図13は、学習済BERTモデル再学習処理のフローチャートである。「学習済BERTモデル再学習処理」とは、SA8で新たに登録した未知語等について、学習済BERTモデル(詳細には、本実施の形態では例えば「事前学習済BERTモデル」)を再学習する処理である。
===SB1===
図13のSB1において学習部232は、再学習用情報を取得する。具体的には任意であるが、例えば、記録部22に再学習用情報として記録されているニュース記事の本文を取得する。
ここでは、例えば、図5に例示されている「記事番号」=「1」〜「4」等のニュース記事の本文を取得する。すなわち、「先日リリースされたABフォンXRとBCフォンのスペックは・・・である。そして、これらを比較すると、・・・・が優位である。」、及び「第5世代通信時代のサービスが昨年のxx月に開始したが、このサービスが普及すると、・・・となる。」等の複数の文を含む文章情報を取得する。
===SB2===
図13のSB2において学習部232は、SB1で取得したニュース記事の本文について、単語に分割する処理を行う。具体的には任意であるが、例えば、基本的にはSA5の単語に分割する処理と同様な処理を行い、すなわち、図7の形態素解析用単語辞書情報に基づいて処理を行う。
ここでは、例えば、「先日,リリース,さ,れ,た,ABフォンXR,と,BCフォン,の,スペック,は,(以下省略)」等に分割する。なお、「第5世代通信時代のサービスが昨年のxx月に開始したが、このサービスが普及すると、・・・となる。」の説明は省略する。特に、図7に例示されているように、「ABフォンXR」が追加されたので、当該「ABフォンXR」を1個の単語として分割することになる。
===SB3===
図13のSB3において学習部232は、SB2で分割した単語の並びを、単語IDの並びに変換する。具体的には任意であるが、例えば、図12のBERT用単語辞書情報であるテキストファイルを参照して、SB2で分割した単語と同じ単語が記録されている行を特定し、当該特定した行に対応する単語IDに変換する。なお、SB2で分割した単語の中には、図12のBERT用単語辞書情報に記録されていない単語も存在し得るが、この場合は、前述した「UNK」に対応する単語IDである「ID1」に変換することとする。
ここでは、例えば、「先日,リリース,さ,れ,た,ABフォンXR,と,BCフォン,の,スペック,は,・・・」の並びを、「ID(先日),ID(リリース),ID(さ),ID(れ),ID(た),ID32001,ID4,ID1,ID(の),ID(スペック),ID(は),・・・」という単語IDの並びに変換する。なお、ここでの「ID(先日)」については、図12のBERT用単語辞書情報における、「先日」という単語が格納されている行に対応する単語IDを示すものとする(他の「()」を用いた単語IDの表現も同様とする)。
特に、「ABフォンXR」については、前述したように、図12のBERT用単語辞書情報に登録されたので、当該「ABフォンXR」を一意に識別する単語IDである「ID32001」(図12のBERT用単語辞書情報のテキストファイルにおける、32001行目に対応する単語ID)に変換されることなる。一方、「BCフォン」については、図6のSA7において「非対象未知語」と判定されて、図12のBERT用単語辞書情報に登録されていないので、「UNK」に対応する単語IDである「ID1」に変換されることになる。
そして、このSB3においては、SB1で取得した再学習用情報であるニュース記事の本文全てについて、単語IDの並びに変換する。
===SB4===
図13のSB4において学習部232は、SB3で変換された単語IDの並びを用いて、図1の記録部22に記録されている学習済BERTモデルについて、再度の機械学習を行うことにより、学習済BERTモデルを更新する(詳細には、本実施の形態では例えば「事前学習済BERTモデル」を「未知語学習済BERTモデル」に更新する)。
ここでは、例えば、「ID(先日),ID(リリース),ID(さ),ID(れ),ID(た),ID32001,ID4,ID1,ID(の),ID(スペック),ID(は),・・・」という単語IDの並び等を用いて、図1の記録部22に記録されている学習済BERTモデルについて、再度の機械学習を行うことにより、学習済BERTモデルを更新して、更新された学習済BERTモデルを記録する(詳細には、本実施の形態では例えば「事前学習済BERTモデル」を「未知語学習済BERTモデル」に更新し、更新された「未知語学習済BERTモデル」を格納する)。
そして、図13の学習済BERTモデル再学習処理をリターンした後に、図6の再学習処理を終了する。
(処理−分類処理)
図14は、分類処理のフローチャートである。分類処理は、サーバ装置2で行われる処理であり、概略的には、分類タスクを実行する処理である。この分類処理を実行するタイミングは任意であるが、例えば、前述の再学習処理(図6)が実行された後に、タスクモデルを生成する場合に利用される情報を用いて前述の公知の機械学習を行って、「未知語学習済BERTモデル」が「分類学習済BERTモデル」に更新されて記録され、また、タスクモデルが生成されて記録された後のタイミングであり、一例としては、端末装置1のユーザが、当該端末装置1を介して図1の分類対象情報をサーバ装置2に送信することにより入力して格納した後の、所定のタイミング(例えば、ユーザが端末装置1を介して分類処理を実行する操作を行ったタイミング等)に、起動することとし、分類処理が起動したところから説明する。
ここでは、例えば、前述の再学習処理(図6)において、通信分野のニュース記事に基づいて「事前学習済BERTモデル」が「未知語学習済BERTモデル」に更新され、この後に、当該「未知語学習済BERTモデル」が「分類学習済BERTモデル」に更新されており、また、前述したように、分類対象情報が通信分野のニュース記事である場合を例示して説明する。
===SC1===
図14のSC1において制御部23は、分類対象情報を取得する。具体的には任意であるが、例えば、図1の記録部22に分類対象情報として記録されているニュース記事のタイトルを取得する。
ここでは、例えば、図1の記録部22の分類対象情報として、タイトルが「新発売のABフォンXRを徹底検証した。」であり、本文が「うわさのABフォンXRは・・・」というニュース記事を含む多数のニュース記事が格納されている場合を例示する。この場合、このタイトルである「新発売のABフォンXRを徹底検証した。」等を取得する。
===SC2===
図14のSC2において制御部23は、SC1で取得したニュース記事のタイトルについて、単語に分割する処理を行う。具体的には任意であるが、例えば、図13のSB2の処理と同様な処理を行い、すなわち、図7の形態素解析用単語辞書情報に基づいて処理を行う。
ここでは、例えば、「新発売,の,ABフォンXR,を,・・・」等に分割する。
===SC3===
図14のSC3において制御部23は、SC2で分割した単語の並びを、単語IDの並びに変換する。具体的には任意であるが、例えば、図13のSB3の処理と同様な処理を行い、すなわち、図12のBERT用単語辞書情報に基づいて処理を行う。
ここでは、例えば、「ID(新発売),ID(の),ID32001,ID(を),・・・」という単語IDの並び等に変換する。特に、「ABフォンXR」については、前述したように、図12のBERT用単語辞書情報に登録されたので、当該「ABフォンXR」を一意に識別する単語IDである「ID32001」に変換されることなる。
===SC4===
図14のSC4において制御部23は、分散表現数値情報の並びを取得する。具体的には任意であるが、例えば、SC3で変換した単語IDの並びを、各ニュース記事のタイトル単位で、図1の記録部22に記録されている学習済BERTモデル(詳細には、本実施の形態では例えば「分類学習済BERTモデル」)に入力し、当該学習済BERTモデルから出力された分散表現数値情報の並びを取得する。
ここでは、例えば、SC3で変換した単語IDの並びである「ID(新発売),ID(の),ID32001,ID(を),・・・」等を、図1の記録部22に記録されている学習済BERTモデル(詳細には、本実施の形態では例えば「分類学習済BERTモデル」)に入力し、当該学習済BERTモデルから出力された分散表現数値情報の並びである「Num_ID(新発売),Num_ID(の),Num_ID32001,Num_ID(を),・・・」等を取得する。なお、「Num_ID(新発売)」は、「ID(新発売)」に対応する分散表現数値情報であることとする。なお、他の「Num_」を用いた表現も同様とする。
===SC5===
図14のSC5において制御部23は、カテゴリを示す情報を取得する。具体的には任意であるが、例えば、SC4で取得した分散表現数値情報の並びを、各ニュース記事のタイトル単位で、図1の記録部22に記録されているタスクモデルに入力し、当該タスクモデルから出力されたカテゴリを示す情報(つまり、タスクモデルに入力された分散表現数値情報の並びに対応するタイトルのニュース記事が属するカテゴリを示す情報)を取得する。
ここでは、例えば、SC4で取得した分散表現数値情報の並びである「Num_ID(新発売),Num_ID(の),Num_ID32001,Num_ID(を),・・・」等を、図1の記録部22に記録されているタスクモデルに入力し、当該タスクモデルから出力されたカテゴリを示す情報として「製品紹介」のカテゴリを示す情報等を取得する。
===SC6===
図14のSC6において制御部23は、図1の分類対象情報として格納されているニュース記事を分類する。具体的には任意であるが、例えば、SC5で取得したカテゴリを示す情報に基づいて、各ニュース記事をカテゴリに分類し、当該分類結果を示す情報を、端末装置1に送信することにより、当該端末装置1側で当該処理結果を利用可能とする。
ここでは、例えば、タイトルが「新発売のABフォンXRを徹底検証した。」であり、本文が「うわさのABフォンXRは・・・」であるニュース記事を「製品紹介」のカテゴリに分類し、また、同様にして、他のニュース記事もカテゴリに分類し、分類結果を示す情報を、端末装置1側に送信する。
なお、ここでの分類結果を示す情報は任意であるが、例えば、各ニュース記事を特定する情報(例えば、記事の番号又はタイトル等)と当該記事が分類されたカテゴリを示す情報とが相互に関連付けられた情報を用いてもよいし、あるいは、各カテゴリに属するニュース記事を特定する一覧情報を用いてもよい。
そして、このように処理することにより、端末装置1のユーザは、当該サーバ装置2から送信された情報に基づいて、各ニュース記事のカテゴリを把握することが可能となる。これにて、分類処理を終了する。
(分類精度について)
前述したように、図6の再学習処理を行って、図12に示すように未知語をBERT用単語辞書に新たに追加した上で、学習済BERTモデルを再学習することにより、当該学習済BERTモデルが、当該追加した未知語についても一意に認識して分散表現数値情報を出力可能となり、学習済BERTモデルを用いて適切に扱える単語数が増加し、結果として、学習済BERTモデル及びタスクモデルにおいて、文章の文脈をより的確にとらえることが可能となるので、ニュース記事の分類精度が向上することになる。
(再学習時間について)
また、図13のSB4で行われる再学習においては、図7のSA8で新たにBERT用単語辞書情報に格納された未知語以外の、当該BERT用単語辞書情報中の単語は、既に機械学習の対象となっているので、当該再学習で用いられる再学習用情報(実施の形態では、ニュース記事の本文)の情報量を低減させることができ、比較的少ない量の再学習用情報を用いて比較的短い時間(例えば、12時間〜24時間等)で再学習を行うことが可能となる。
(実施の形態の効果)
このように本実施の形態によれば、取得部231が取得した未知語に関する機械学習を行うことにより、例えば、学習済BERTモデルを更新することができるので、当該学習済BERTモデルに基づいて行う処理の処理精度を向上させることが可能となる。また、例えば、新たに学習済BERTモデルを生成するわけではないので、比較的少ない情報量の第2文章情報(ニュース記事の本文)を用いて機械学習を行うことができるので、当該機械学習を行う時間を短縮することが可能となる。
また、取得部231が取得した未知語の内の、機械学習の対象にするものと判定した未知語に関する機械学習を学習済BERTモデルについて行うことにより、例えば、未知語を適切に絞ることができるので、機械学習を行う時間を短縮することが可能となる。
また、品詞に関する基準に基づいて未知語を機械学習の対象にするか否かを判定することにより、例えば、機械学習の対象にするか否かを適切に判定することが可能となる。
また、出現頻度に関する基準に基づいて未知語を機械学習の対象にするか否かを判定することにより、例えば、機械学習の対象にするか否かを適切に判定することが可能となる。
また、第1文章情報(ニュース記事のタイトル)において特定した重要単語又は重要フレーズに基づいて、第1文章情報から未知語を取得することにより、例えば、有用な未知語を取得することができるので、学習済BERTモデルに基づいて行う処理の処理精度を向上させることが可能となる。
また、第1文章情報(ニュース記事のタイトル)に含まれる単語の内の、単語辞書情報(BERT用単語辞書情報)に記録されている単語以外の単語を、未知語として取得することにより、例えば、有用な未知語を取得することができるので、学習済BERTモデルに基づいて行う処理の処理精度を向上させることが可能となる。
また、少なくとも単語辞書情報(BERT用単語辞書情報)に新たに記録した未知語に関する機械学習を行うことにより、例えば、比較的少ない情報量の第2文章情報を用いて機械学習を行うことができるので、当該機械学習を行う時間を短縮することが可能となる。
また、第1文章情報はニュース記事のタイトルに対応する文章を示す情報であり、第2文章情報はニュース記事の本文に対応する文章を示す情報であることにより、例えば、未知語に関して適切に機械学習を行うことができるので、学習済BERTモデルに基づいて行う処理の処理精度を向上させることが可能となる。
〔実施の形態に対する変形例〕
以上、本発明に係る実施の形態について説明したが、本発明の具体的な構成及び手段は、特許請求の範囲に記載した本発明の技術的思想の範囲内において、任意に改変及び改良することができる。以下、このような変形例について説明する。
(解決しようとする課題や発明の効果について)
まず、発明が解決しようとする課題や発明の効果は、上述の内容に限定されるものではなく、発明の実施環境や構成の細部に応じて異なる可能性があり、上述した課題の一部のみを解決したり、上述した効果の一部のみを奏したりすることがある。
(分散や統合について)
また、上述した各電気的構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散や統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散又は統合して構成できる。また、本出願における「装置」とは、単一の装置によって構成されたものに限定されず、複数の装置によって構成されたものを含む。
(形状、数値、構造、時系列について)
実施の形態や図面において例示した構成要素に関して、形状、数値、又は複数の構成要素の構造若しくは時系列の相互関係については、本発明の技術的思想の範囲内において、任意に改変及び改良することができる。
(タスクモデルの機械学習について)
また、上記実施の形態のタスクモデルについては、前述したように、機械学習を行うことにより生成されるが、前述の再学習が行われた学習済BERTモデル、及び当該再学習の際に利用したBERT用単語辞書に基づいて行われる処理の処理結果を利用して、機械学習を行うことによりタスクモデルを生成することとしてもよい。
(再学習処理について(その1))
また、図6の再学習処理において、重要単語又は重要フレーズの内の重要単語のみを用いて未知語を取得するように変更してもよい。なお、以下で特記する処理以外の処理は、実施の形態で説明した処理と同様とする(後述する「(再学習処理について(その2))」も同様とする)。処理については例えば、SA1の後のSA2において、重要単語又は重要フレーズの内の重要単語のみを取得する。次に、SA3及びSA4を省略し、SA5において、図4の形態素解析用単語辞書情報(つまり、重要フレーズが追加されていない形態素解析用単語辞書情報)に基づいて単語に分割する処理を行い、この後に、未知語を取得する処理を行う。次に、SA6において、SA5で取得した未知語の中から、SA2で取得した重要単語に合致する未知語のみを取得する。そして、この後、SA7〜SA9を実行する。
(再学習処理について(その2))
また、図6の再学習処理において、形態素解析用単語辞書情報の単語情報として、所定の単語又は所定のフレーズを登録するように変更してもよい。なお、「所定の単語」とは、予め定められた単語であり、例えば、ユーザによってサーバ装置2に入力された単語等を含む概念である。また、「所定のフレーズ」とは、予め定められたフレーズであり、例えば、ユーザによってサーバ装置2に入力されたフレーズ等を含む概念である。処理については例えば、SA1を実行した後に、SA2を省略し、SA3を実行する。次に、SA4において、前述の所定の単語又は所定のフレーズを、図4の形態素解析用単語辞書情報の単語情報として記録することにより登録する。なお、この場合、これらの所定の単語又は所定のフレーズに対応する品詞情報及び読み情報もユーザによってサーバ装置2に入力されることとし、この情報を登録する。次に、SA5において、SA4で所定の単語又は所定のフレーズが登録された形態素解析用単語辞書情報を用いて、単語に分割する処理を行い、この後、未知語を取得する処理を行う。次に、SA6において、SA5で取得した未知語の中から、SA4で登録した所定の単語又は所定のフレーズに合致する未知語のみを取得する。そして、この後、SA7〜SA9を実行する。
(処理の省略又は変更について)
また、図6の再学習処理の内の任意の処理を省略又は変更してもよく、例えば、SA3で取得した未知語を全てBERT用単語辞書情報に登録した上で、学習済BERTモデル再学習処理を行うように構成してもよい。又は、SA5で取得した未知語を全てBERT用単語辞書情報に登録した上で、学習済BERTモデル再学習処理を行うように構成してもよい。又は、SA3又はSA5で取得した未知語の内の、SA6で排除した未知語以外の未知語(つまり、「!」等の不要な未知語以外の未知語)を、BERT用単語辞書情報に登録した上で、学習済BERTモデル再学習処理を行うように構成してもよい。
(初回の機械学習について)
また、上記実施の形態の学習済BERTモデルに関する「初回の機械学習」については、基本的には、学習済BERTモデル再学習処理と同様な処理であるものと解釈してもよい。
(用語の解釈について)
また、上記実施の形態では、「事前学習済BERTモデル」が「学習済対象モデル」に対応するものと解釈してもよいと説明したが、他の解釈を適用することも可能である。例えば、図1の記録部22の再学習用情報を入れかえて図6の再学習処理を複数回実行することも想定されるが、この場合、当該再学習処理における処理対象が前回の学習済BERTモデル再学習処理で更新された「未知語学習済BERTモデル」になる場合が想定される。この場合、この前回更新された「未知語学習済BERTモデル」が「学習済対象モデル」に対応するものと解釈してもよい。
(組み合わせについて)
また、上記実施の形態の特徴と、変形例の特徴を任意に組み合わせてもよい。
(付記)
付記1の情報処理システムは、1個以上の単語に関する機械学習を行うことにより生成された学習済対象モデルであって、単語の特徴を示す数値情報を出力する前記学習済対象モデルについて再度機械学習を行うための情報処理システムであって、前記学習済対象モデルにおいて機械学習の対象となっていない未知語を、第1文章情報から取得する取得手段と、第2文章情報を用いて、前記学習済対象モデルについて、少なくとも前記取得手段が取得した前記未知語に関する機械学習を行う学習手段と、を備える。
付記2の情報処理システムは、付記1に記載の情報処理システムにおいて、前記学習手段は、所定の判定基準に基づいて、前記取得手段が取得した前記未知語を機械学習の対象にするか否かを判定し、前記取得手段が取得した前記未知語の内の、機械学習の対象にするものと判定した前記未知語に関する機械学習を前記学習済対象モデルについて行う。
付記3の情報処理システムは、付記2に記載の情報処理システムにおいて、前記学習手段は、前記取得手段が取得した前記未知語の品詞に関する基準に基づいて、前記取得手段が取得した前記未知語を機械学習の対象にするか否かを判定する。
付記4の情報処理システムは、付記2又は3に記載の演算システムにおいて、前記学習手段は、前記取得手段が取得した前記未知語の、前記第1文章情報又は前記第2文章情報内での出現頻度に関する基準に基づいて、前記取得手段が取得した前記未知語を機械学習の対象にするか否かを判定する。
付記5の情報処理システムは、付記1から4の何れか一項に記載の情報処理システムにおいて、前記取得手段は、所定の特定基準に基づいて、前記第1文章情報において重要単語又は重要フレーズを特定し、特定した前記重要単語又は前記重要フレーズに基づいて、前記第1文章情報から前記未知語を取得する。
付記6の情報処理システムは、付記1から5の何れか一項に記載の情報処理システムにおいて、前記学習済対象モデルで一意に識別される単語が記録されている単語辞書情報を格納する格納手段、を備え、前記取得手段は、前記第1文章情報に含まれる単語の内の、前記単語辞書情報に記録されている単語以外の単語を、前記未知語として取得する。
付記7の情報処理システムは、付記6に記載の情報処理システムにおいて、前記学習手段は、前記取得手段が取得した前記未知語を前記単語辞書情報に新たに記録し、前記第2文章情報を用いて、前記学習済対象モデルについて、少なくとも前記単語辞書情報に新たに記録した前記未知語に関する機械学習を行う。
付記8の情報処理システムは、付記1から7の何れか一項に記載の情報処理システムにおいて、前記第1文章情報は、ニュース記事のタイトルに対応する文章を示す情報であり、前記第2文章情報は、ニュース記事の本文に対応する文章を示す情報である。
付記9の情報処理プログラムは、1個以上の単語に関する機械学習を行うことにより生成された学習済対象モデルであって、単語の特徴を示す数値情報を出力する前記学習済対象モデルについて再度機械学習を行うための情報処理プログラムであって、コンピュータを、前記学習済対象モデルにおいて機械学習の対象となっていない未知語を、第1文章情報から取得する取得手段と、第2文章情報を用いて、前記学習済対象モデルについて、少なくとも前記取得手段が取得した前記未知語に関する機械学習を行う学習手段と、として機能させる。
(付記の効果)
付記1に記載の情報処理システム、及び付記9に記載の情報処理プログラムによれば、取得手段が取得した未知語に関する機械学習を行うことにより、例えば、学習済対象モデルを更新することができるので、当該学習済対象モデルに基づいて行う処理の処理精度を向上させることが可能となる。また、例えば、新たに学習済対象モデルを生成するわけではないので、比較的少ない情報量の第2文章情報を用いて機械学習を行うことができるので、当該機械学習を行う時間を短縮することが可能となる。
付記2に記載の情報処理システムによれば、取得手段が取得した未知語の内の、機械学習の対象にするものと判定した未知語に関する機械学習を学習済対象モデルについて行うことにより、例えば、未知語を適切に絞ることができるので、機械学習を行う時間を短縮することが可能となる。
付記3に記載の情報処理システムによれば、品詞に関する基準に基づいて未知語を機械学習の対象にするか否かを判定することにより、例えば、機械学習の対象にするか否かを適切に判定することが可能となる。
付記4に記載の情報処理システムによれば、出現頻度に関する基準に基づいて未知語を機械学習の対象にするか否かを判定することにより、例えば、機械学習の対象にするか否かを適切に判定することが可能となる。
付記5に記載の情報処理システムによれば、第1文章情報において特定した重要単語又は重要フレーズに基づいて、第1文章情報から未知語を取得することにより、例えば、有用な未知語を取得することができるので、学習済対象モデルに基づいて行う処理の処理精度を向上させることが可能となる。
付記6に記載の情報処理システムによれば、第1文章情報に含まれる単語の内の、単語辞書情報に記録されている単語以外の単語を、未知語として取得することにより、例えば、有用な未知語を取得することができるので、学習済対象モデルに基づいて行う処理の処理精度を向上させることが可能となる。
付記7に記載の情報処理システムによれば、少なくとも単語辞書情報に新たに記録した未知語に関する機械学習を行うことにより、例えば、比較的少ない情報量の第2文章情報を用いて機械学習を行うことができるので、当該機械学習を行う時間を短縮することが可能となる。
付記8に記載の情報処理システムによれば、第1文章情報はニュース記事のタイトルに対応する文章を示す情報であり、第2文章情報はニュース記事の本文に対応する文章を示す情報であることにより、例えば、未知語に関して適切に機械学習を行うことができるので、学習済対象モデルに基づいて行う処理の処理精度を向上させることが可能となる。
1 端末装置
2 サーバ装置
21 通信部
22 記録部
23 制御部
100 情報システム
231 取得部
232 学習部

Claims (8)

  1. 1個以上の単語に関する機械学習を行うことにより生成された学習済対象モデルであって、単語の特徴を示す数値情報を出力する前記学習済対象モデルについて再度機械学習を行うための情報処理システムであって、
    前記学習済対象モデルで一意に識別される単語が記録されている単語辞書情報を格納する格納手段と、
    前記学習済対象モデルにおいて機械学習の対象となっていない未知語であって、少なくとも前記格納手段の前記単語辞書情報に記録されていない単語である前記未知語を、第1文章情報から取得する取得手段と、
    前記第1文章情報に関連する第2文章情報を用いて、前記学習済対象モデルについて、少なくとも前記取得手段が取得した前記未知語に関する機械学習を行う学習手段と、
    を備え
    前記学習手段は、
    前記取得手段が取得した前記未知語を前記単語辞書情報に新たに記録する第1処理と、
    前記第2文章情報に含まれる文章を単語に分割する第2処理と、
    前記格納手段に格納されている前記単語辞書情報に基づいて、前記第2処理で分割された単語を、各単語を識別するための単語識別情報に変換する第3処理と、
    前記第3処理で変換された前記単語識別情報に基づいて、前記学習済対象モデルについて機械学習を行う第4処理と、を行う、
    情報処理システム。
  2. 前記学習手段は、
    所定の判定基準に基づいて、前記取得手段が取得した前記未知語を機械学習の対象にするか否かを判定し、
    前記取得手段が取得した前記未知語の内の、機械学習の対象にするものと判定した前記未知語に関する機械学習を前記学習済対象モデルについて行う、
    請求項1に記載の情報処理システム。
  3. 前記学習手段は、前記取得手段が取得した前記未知語の品詞に関する基準に基づいて、前記取得手段が取得した前記未知語を機械学習の対象にするか否かを判定する、
    請求項2に記載の情報処理システム。
  4. 前記学習手段は、前記取得手段が取得した前記未知語の、前記第1文章情報又は前記第2文章情報内での出現頻度に関する基準に基づいて、前記取得手段が取得した前記未知語を機械学習の対象にするか否かを判定する、
    請求項2又は3に記載の情報処理システム。
  5. 前記取得手段は、所定の特定基準に基づいて、前記第1文章情報において重要単語又は重要フレーズを特定し、特定した前記重要単語又は前記重要フレーズに基づいて、前記第1文章情報から前記未知語を取得する、
    請求項1から4の何れか一項に記載の情報処理システム。
  6. 前記第1文章情報は、ニュース記事のタイトルに対応する文章を示す情報であり、
    前記第2文章情報は、ニュース記事の本文に対応する文章を示す情報である、
    請求項1からの何れか一項に記載の情報処理システム。
  7. 前記第3処理において、前記学習手段は、
    前記第2処理で分割された単語が前記単語辞書情報に記録されている場合に、当該単語を一意に識別するための前記単語識別情報である第1単語識別情報に変換し、
    前記第2処理で分割された単語が前記単語辞書情報に記録されていない場合に、前記単語辞書情報に記録されていない単語に共通して用いる前記単語識別情報である第2単語識別情報に変換し、
    前記第4処理において、前記学習手段は、
    前記第3処理で変換された前記第1単語識別情報及び前記第2単語識別情報に基づいて、前記学習済対象モデルについて機械学習を行う、
    請求項1から6の何れか一項に記載の情報処理システム。
  8. 1個以上の単語に関する機械学習を行うことにより生成された学習済対象モデルであって、単語の特徴を示す数値情報を出力する前記学習済対象モデルについて再度機械学習を行うための情報処理プログラムであって、
    コンピュータを、
    前記学習済対象モデルにおいて機械学習の対象となっていない未知語であって、少なくとも前記学習済対象モデルで一意に識別される単語が記録されている単語辞書情報を格納する格納手段に格納されている前記単語辞書情報に記録されていない単語である前記未知語を、第1文章情報から取得する取得手段と、
    前記第1文章情報に関連する第2文章情報を用いて、前記学習済対象モデルについて、少なくとも前記取得手段が取得した前記未知語に関する機械学習を行う学習手段と、
    として機能させ
    前記学習手段は、
    前記取得手段が取得した前記未知語を前記単語辞書情報に新たに記録する第1処理と、
    前記第2文章情報に含まれる文章を単語に分割する第2処理と、
    前記格納手段に格納されている前記単語辞書情報に基づいて、前記第2処理で分割された単語を、各単語を識別するための単語識別情報に変換する第3処理と、
    前記第3処理で変換された前記単語識別情報に基づいて、前記学習済対象モデルについて機械学習を行う第4処理と、を行う、
    情報処理プログラム。
JP2020147186A 2020-09-02 2020-09-02 情報処理システム、及び情報処理プログラム Active JP6936370B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020147186A JP6936370B1 (ja) 2020-09-02 2020-09-02 情報処理システム、及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020147186A JP6936370B1 (ja) 2020-09-02 2020-09-02 情報処理システム、及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP6936370B1 true JP6936370B1 (ja) 2021-09-15
JP2022042030A JP2022042030A (ja) 2022-03-14

Family

ID=77657926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020147186A Active JP6936370B1 (ja) 2020-09-02 2020-09-02 情報処理システム、及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP6936370B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210124780A (ko) 2020-04-07 2021-10-15 현대자동차주식회사 연료전지용 고분자 전해질막 및 이를 제조하는 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6517537B2 (ja) * 2015-02-26 2019-05-22 日本電信電話株式会社 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム
KR102604552B1 (ko) * 2016-07-15 2023-11-22 삼성전자주식회사 단어 임베딩 방법, 단어 임베딩 장치, 음성 인식 방법 및 음성 인식 장치
US10846319B2 (en) * 2018-03-19 2020-11-24 Adobe Inc. Online dictionary extension of word vectors

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210124780A (ko) 2020-04-07 2021-10-15 현대자동차주식회사 연료전지용 고분자 전해질막 및 이를 제조하는 방법

Also Published As

Publication number Publication date
JP2022042030A (ja) 2022-03-14

Similar Documents

Publication Publication Date Title
Bajaj et al. Ms marco: A human generated machine reading comprehension dataset
US9542477B2 (en) Method of automated discovery of topics relatedness
Terechshenko et al. A comparison of methods in political science text classification: Transfer learning language models for politics
Banik et al. Gru based named entity recognition system for bangla online newspapers
Jarvis et al. Native language identification
JP6936370B1 (ja) 情報処理システム、及び情報処理プログラム
Bryl et al. Interlinking and knowledge fusion
Quemy et al. On integrating and classifying legal text documents
JP6409071B2 (ja) 文の並び替え方法および計算機
Nanni et al. Semi-supervised textual analysis and historical research helping each other: Some thoughts and observations
Petcuşin et al. An experiment on automated requirements mapping using deep learning methods
Popova et al. Keyphrase extraction using extended list of stop words with automated updating of stop words list
Pakray et al. An hmm based pos tagger for pos tagging of code-mixed indian social media text
WO2018066083A1 (ja) 学習プログラム、情報処理装置および学習方法
Kunanets et al. Enhanced LSA Method with Ukraine Language Support.
Ngo et al. Identifying user intents in Vietnamese spoken language commands and its application in smart mobile voice interaction
JP5342574B2 (ja) トピックモデリング装置、トピックモデリング方法、及びプログラム
Alian et al. Unsupervised learning blocking keys technique for indexing Arabic entity resolution
Langlais et al. Issues in analogical inference over sequences of symbols: A case study on proper name transliteration
Shenoy et al. Design of chatbot using natural language processing
Rajesh et al. Significance of natural language processing in data analysis using business intelligence
Cooper Data warehouse, bronze, gold, STEC, software
Huszár Multilingual prompt engineering via large language models: an approach to sentiment analysis
Espin-Riofrio et al. Spanish Stylometric Features to Determine Gender and Profession of Ecuadorian Twitter Users
Song et al. A hybrid model for community-oriented lexical simplification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200902

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200902

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210810

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210826

R150 Certificate of patent or registration of utility model

Ref document number: 6936370

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150