JP6936370B1 - 情報処理システム、及び情報処理プログラム - Google Patents
情報処理システム、及び情報処理プログラム Download PDFInfo
- Publication number
- JP6936370B1 JP6936370B1 JP2020147186A JP2020147186A JP6936370B1 JP 6936370 B1 JP6936370 B1 JP 6936370B1 JP 2020147186 A JP2020147186 A JP 2020147186A JP 2020147186 A JP2020147186 A JP 2020147186A JP 6936370 B1 JP6936370 B1 JP 6936370B1
- Authority
- JP
- Japan
- Prior art keywords
- information
- word
- words
- unknown
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
請求項7に記載の情報処理システムは、請求項1から6の何れか一項に記載の情報処理システムにおいて、前記第3処理において、前記学習手段は、前記第2処理で分割された単語が前記単語辞書情報に記録されている場合に、当該単語を一意に識別するための前記単語識別情報である第1単語識別情報に変換し、前記第2処理で分割された単語が前記単語辞書情報に記録されていない場合に、前記単語辞書情報に記録されていない単語に共通して用いる前記単語識別情報である第2単語識別情報に変換し、前記第4処理において、前記学習手段は、前記第3処理で変換された前記第1単語識別情報及び前記第2単語識別情報に基づいて、前記学習済対象モデルについて機械学習を行う。
まず、基本的概念について説明する。本発明に係る情報処理システムは、学習済対象モデルについて再度機械学習(つまり、「再学習」)を行うためのシステムであり、例えば、再度機械学習を行うための専用システム、あるいは、汎用的に用いられるシステム(一例としては、汎用コンピュータ、サーバコンピュータ、あるいは、ネットワーク上に分散配置された複数のコンピュータ(つまり、いわゆるクラウドコンピュータ)等)に対して、情報処理プログラムをインストールして再度機械学習を行うための機能を実装することにより実現されるシステム等を含む概念である。
「取得手段」とは、学習済対象モデルにおいて機械学習の対象となっていない未知語を、第1文章情報から取得する手段である。また、「取得手段」とは、例えば、所定の特定基準に基づいて、第1文章情報において重要単語又は重要フレーズを特定し、特定した重要単語又は重要フレーズに基づいて、第1文章情報から未知語を取得する手段等を含む概念である。また、「取得手段」とは、例えば、第1文章情報に含まれる単語の内の、単語辞書情報に記録されている単語以外の単語を、未知語として取得する手段等を含む概念である。
「未知語」とは、学習済対象モデルにおいて機械学習の対象となっていない単語であり、具体的には、学習済対象モデルにおいて一意に識別可能となっていない単語等を含む概念であり、例えば、単語辞書情報に記録されていない単語等を含む概念である。
まず、本実施の形態に係る情報システムについて説明する。図1は、本発明の実施の形態が情報システムのブロック図である。
端末装置1は、ユーザによって用いられる装置であり、具体的には、サーバ装置2に対してネットワークを介して通信可能に接続されている装置であり、例えば、パーソナルコンピュータ等を含むコンピュータである。なお、端末装置1の具体的な構成は任意であるが、例えば、公知のパーソナルコンピュータの構成を適用することができる。
サーバ装置2は、情報処理システムであり、例えば、通信部21、記録部22、及び制御部23を備える。
図1の通信部21は、外部装置(例えば、端末装置1)との間で通信するための通信手段である。この通信部21の具体的な種類や構成は任意であるが、例えば、公知の通信回路等を用いて構成することができる。
図1の記録部22は、サーバ装置2の動作に必要なプログラム及び各種のデータを記録する記録手段(格納手段)であり、例えば、外部記録装置としてのハードディスク又はフラッシュメモリ(図示省略)を用いて構成されている。ただし、ハードディスク又はフラッシュメモリに代えてあるいはハードディスク又はフラッシュメモリと共に、磁気ディスクの如き磁気的記録媒体、又はDVDやブルーレイディスクの如き光学的記録媒体を含む、その他の任意の記録媒体を用いることができる。
図1の「BERT用単語辞書情報」とは、前述の単語辞書情報であり、学習済BERTモデルで一意に識別される単語が記録されている情報であり、例えば、各単語を、当該各単語を識別するための単語IDに変換するための情報である。
図3は、サーバ装置に記録されている各モデルの説明図である。図1の「学習済BERTモデル」とは、例えば、図3の「モデル」=「学習済BERTモデル」の欄に図示されているように、単語IDの並びが入力され、当該入力された単語ID各々に対応する分散表現数値情報の並びを出力するモデルである。なお、「分散表現数値情報」とは、単語IDが識別する単語の分散表現に対応する数値情報を示す概念である。
図1の「タスクモデル」とは、タスクを実行するためのモデルであり、具体的には、学習済BERTモデル(詳細には、例えば「分類学習済BERTモデル」)を用いて行わる処理結果を利用してタスクを実行するためのモデルであり、本実施の形態では、ニュース記事をカテゴリに分けるタスクを実行するためのモデルである。このタスクモデルは、例えば、図3の「モデル」=「タスクモデル」の欄に図示されているように、分散表現数値情報の並びが入力され、当該入力された分散表現数値情報の並びが属するカテゴリを示す情報(つまり、一例としては、ニュース記事が属するカテゴリを示す情報であり、ニュース記事がどのカテゴリに属するかを示す情報)を出力するモデルである。なお、ここで説明したように、タスクモデルについては、例えば「分類学習済BERTモデル」を用いて行われる処理の結果を利用して実行することが好ましいが、例えば、「未知語学習済BERTモデル」を用いて行われる処理の結果を利用して実行してもよい。
図1の「形態素解析用単語辞書情報」とは、文を単語に分割するための形態素解析において用いられる情報である。図4は、形態素解析用辞書情報を例示した図である。この形態素解析用単語辞書情報においては、例えば図4に示すように、項目「単語情報」に対応する情報と、項目「品詞情報」に対応する情報と、項目「読み情報」に対応する情報とが相互に関連付けられている。
図1の「再学習用情報」とは、学習済BERTモデルの再学習のために用いられる情報であり、例えば、後述する再学習処理(図6)で用いられる情報である。図5は、再学習用情報の説明図である。この再学習用情報としては任意の情報を用いることができるが、例えば、後述する分類対象情報に関連する情報を用いてもよいし、あるいは、関連しない情報を用いてもよいが、本実施の形態では、分類対象情報が通信分野に属するニュース記事であり、再学習用情報としては、この分類対象情報が属する分野と同じ分野である通信分野のニュース記事を用いる場合について説明する。ここでは、例えば、図5に示すように、ニュース記事がタイトルと本文とによって構成されており、「記事番号」=「1」に対応する記事(つまり、タイトルが「ABフォンXRとBCフォンを比べた!」であり、本文が「先日リリースされたABフォンXRとBCフォンのスペックは・・・である。そして、これらを比較すると、・・・・が優位である。」である記事)、「記事番号」=「2」に対応する記事(つまり、タイトルが「第5世代通信時代をリードするBBが登場した。」であり、本文が「第5世代通信時代のサービスが昨年のxx月に開始したが、このサービスが普及すると、・・・となる。」である記事)、及び「記事番号」=「3」、「4」等に対応する記事を含む複数の通信分野の記事が再学習用情報として格納されている場合について説明する。
図1の「分類対象情報」とは、学習済BERTモデル(詳細には、例えば「分類学習済BERTモデル」)及びタスクモデルを用いてカテゴリに分けられる対象となる情報である。この分類対象情報としては任意の情報を用いることができるが、例えば、前述したように、通信分野に属するニュース記事であり、図5に例示されている再学習用情報としてのニュース記事と同様な形式の他の情報であり、すなわち、タイトルと本文とによって構成されている他のニュース記事を示す情報を用いることとする。なお、この分類対象情報としてのニュース記事の個数は任意であるが、例えば、数百個〜数千個、あるいは、数万個のニュース記事が格納されていることとしてもよい。
図1の制御部23は、サーバ装置2を制御する制御手段であり、具体的には、CPU、当該CPU上で解釈実行される各種のプログラム(OSなどの基本制御プログラムや、OS上で起動され特定機能を実現するアプリケーションプログラムを含む)、及びプログラムや各種のデータを格納するためのRAMの如き内部メモリを備えて構成されるコンピュータである。特に、実施の形態に係るプログラムは、任意の記録媒体又はネットワークを介してサーバ装置2にインストールされることで、制御部23の各部を実質的に構成する。
次に、このように構成される情報システム100によって行われる処理として、例えば、再学習処理、及び分類処理について説明する。
図6は、再学習処理のフローチャートである(以下では、各ステップを「S」と称する)。再学習処理は、サーバ装置2で行われる処理であり、概略的には、機械学習を行うことにより生成された学習済BERTモデルについて再学習する処理である。この再学習処理を実行するタイミングは任意であるが、例えば、新たな分野の多数のニュース記事が分類対象情報(図1)として入力されて記録され、後述する分類処理(つまり、当該ニュース記事をカテゴリに分ける処理)を行う前の所定のタイミングであって、当該分類対象情報と同じ分野の他の多数のニュース記事が再学習用情報(図1)として入力されて記録された後の、所定のタイミング(例えば、ユーザが端末装置1を介して再学習処理を実行する操作を行ったタイミング等)に、起動することとし、再学習処理が起動したところから説明する。
図6のSA1において取得部231は、再学習用情報を取得する。具体的には任意であるが、例えば、図1の記録部22に再学習用情報として記録されているニュース記事のタイトルを取得する。
図6のSA2において取得部231は、SA1で取得した再学習用情報の中から重要単語及び重要フレーズを取得する。具体的には任意であるが、例えば、SA1で取得したニュース記事のタイトルについて、単語に分割する処理、及び重要単語及び重要フレーズを取得する処理を行う。
単語に分割する処理とは、文を単語に分割する処理であり、例えば、形態素解析に基づいて行われる処理である。この処理については例えば、図4の形態素解析用単語辞書情報を参照して、SA1で取得したニュース記事のタイトルについて、当該形態素解析用単語辞書情報の単語情報が特定する単語と同じ単語を、1個の単語として分割する。
重要単語及び重要フレーズを取得する処理とは、「単語に分割する処理」で分割した単語に関して、前述の所定の特定基準に基づいて、重要単語及び重要フレーズを特定して、特定した重要単語及び重要フレーズを取得する処理である。
「Positionrank」に基づく基準とは、例えば、複数の文を含む文章中の単語又はフレーズ(ここでの「フレーズ」は、連続する複数個(一例としては2個)の単語であるものと解釈する)相互間に関連度の高い単語又はフレーズ程重要度が高いものとして、各単語又は各フレーズにおいて、重要度のランキングを付し、当該ランキングの上位のものを重要単語又は重要フレーズとする基準等を含む概念である。なお、各単語又は各フレーズにおける相互間の関連度は公知の手法を含む任意の手法で定めることができるが、例えば、共起幅(つまり、連続する単語の個数(一例としては3個〜5個等))を設定し、共通する共起幅内に含まれる単語同士は、より関連度が高いものとして、一例としては数値を用いて関連度を定めてもよい。
「TF−IDF」に基づく基準とは、例えば、複数の文を含む文章(例えば、第1文章情報)中の各文中において出現頻度が高い単語又はフレーズ程重要度(重要性の度合い)が高く、また、出現する文の個数が少ない程単語又はフレーズ程重要度が高いものとして、所定の重要度以上の単語又はフレーズを重要単語又は重要フレーズとする基準等を含む概念である。
図6のSA3において取得部231は、SA1で取得した再学習用情報の中から未知語を取得する。具体的には任意であるが、例えば、SA1で取得したニュース記事のタイトルについて、単語に分割する処理、及び未知語を取得する処理を行う。
SA2の単語に分割する処理と同様な処理を行う。ここでは、例えば、図8の上段に示すように、「ABフォン,XR,と,BCフォン,を,比べ,た,!」、及び「第5世代通信,時代,を,リードする,BB,が,登場,した,。」等に分割する。
未知語を取得する処理とは、「単語に分割する処理」で分割した単語の中から、未知語を特定して取得する処理である。この処理については例えば、図1の記録部22に記録されているBERT用単語辞書情報を参照して、「単語に分割する処理」で分割した単語の内の、当該BERT用単語辞書情報に記録されていない単語を、未知語として特定した上で取得する。
図6のSA4において取得部231は、重要フレーズを図1の形態素解析用単語辞書情報に追加して格納する。具体的には任意であるが、例えば、SA2で取得した重要フレーズの内の、SA3で取得した未知語のみによって構成されている重要フレーズを特定し、特定した重要フレーズを図4の形態素解析用単語辞書情報の単語情報として記録し、また、当該記録した単語情報に関連付けられている品詞情報及び読み情報を格納する。なお、品詞情報及び読み情報の格納手法は任意であり、例えば、任意の手法で品詞及び読みを推定して自動的に格納することとしてもよいし、あるいは、ユーザに対して品詞及び読みに関する情報の入力を促すメッセージを不図示のディスプレイに表示し、この後に、ユーザから入力された情報に基づいて格納することとしてもよい。
図6のSA5において取得部231は、SA1で取得した再学習用情報の中から未知語を取得する。具体的には任意であるが、例えば、SA1で取得したニュース記事のタイトルについて、単語に分割する処理、及び未知語を取得する処理を行う。
基本的にはSA2の単語に分割する処理と同様な処理を行うが、特に、SA4で重要フレーズが追加された図7の形態素解析用単語辞書情報に基づいて処理を行う。
SA3の未知語を取得する処理と同様な処理を行う。ここでは、例えば、未知語を取得する処理とは、「単語に分割する処理」で分割した単語の中から、未知語を特定して取得する処理である。この処理については例えば、図1の記録部22に記録されているBERT用単語辞書情報を参照して、「単語に分割する処理」で分割した単語の内の、当該BERT用単語辞書情報に記録されていない単語を、未知語と特定して取得する。図1及び図2のBERT用単語辞書情報に、「ABフォンXR」、「BCフォン」、及び「!」が記録されていない場合について説明する。この場合、図10の下段に示すように、「ABフォンXR」、「BCフォン」、及び「!」等を未知語として取得する。
図6のSA6において取得部231は、SA5で取得した未知語の中から、再学習の候補とする未知語を取得する。すなわち、例えば、SA5で取得した未知語の中から、学習済BERTモデル(詳細には、例えば「事前学習済BERTモデル」)を、再学習することにより通信分野側に寄せる効果が比較的高いものと推定される未知語を取得する。具体的には任意であるが、例えば、SA5で取得した未知語の中から、SA2で取得した重要単語又は重要フレーズに合致する未知語のみを取得する。
図6のSA7において学習部232は、SA6で取得した未知語の中に、再学習(つまり、再度の機械学習)の対象にする未知語が存在するか否かを判定する。具体的には任意であるが、例えば、前述の所定の判定基準に基づいて、各未知語について機械学習の対象にするか否かを判定し、判定結果に基づいて判定する。
「未知語の品詞に関する基準」とは、未知語が所定に品詞であるか否かに基づいて判定する基準であり、本実施の形態では、所定の品詞が名詞である場合について説明する。
「未知語の出現頻度に関する基準」とは、未知語が所定回数以上出現するか否かに基づいて判定する基準であり、具体的には、図1の記録部22に記録されている再学習用情報であるニュース記事のタイトル又は当該ニュース記事の本文中において、未知語が所定回数以上を出現するか否かに基づいて判定する基準であり、本実施の形態では、所定回数が5回である場合について説明する。
なお、これらの基準については、様々なバリエーションが想定され、これらのバリエーションを任意に適用してもよい。「未知語の品詞に関する基準」については、例えば、名詞以外の1個以上の任意の品詞(例えば、動詞、形容詞等)を所定の品詞として用いてもよい。
そして、本実施の形態では、「未知語の品詞に関する基準」としては、未知語が名詞であるか否かに基づいて判定する基準を用い、また、「未知語の出現頻度に関する基準」については、再学習用情報であるニュース記事のタイトルのみにおいて、未知語が5回以上を出現し、且つ、当該ニュース記事の本文のみにおいて、未知語が5回以上を出現するか否かに基づいて判定する基準を用いる場合について説明する。
SA7の処理について具体的には、まず、SA6で取得した各未知語の品詞を、任意の手法(例えば、図7の形態素解析用単語辞書情報を参照して特定する手法等)を用いて特定し、また、図1の記録部22に記録されている再学習用情報が示すニュース記事のタイトル及び当該ニュース記事の本文を取得し、SA6で取得した各未知語について、当該タイトル中での出現頻度、及び当該本文中の出現頻度を特定する。次に、SA6で取得した各未知語について、前述の特定した品詞が「名詞」であり、且つ、前述の特定したタイトル中での出現頻度が「5回」以上であり、且つ、前述の特定した本文中での出現頻度が「5回」以上である場合、再学習の対象にする未知語(以下、「再学習対象未知語」とも称する)であるものと判定する。一方、SA6で取得した各未知語について、前述の特定した品詞が「名詞」ではない場合、前述の特定したタイトル中での出現頻度が「5回」未満である場合、又は、前述の特定した本文中での出現頻度が「5回」未満である場合、再学習の対象としない未知語(以下、「非対象未知語」とも称する)であるものと判定する(つまり、再学習の対象とする未知語でないものと判定する)。
図6のSA8において学習部232は、未知語の登録等を行う。具体的な処理は任意であるが、例えば、SA7において「再学習対象未知語」であるものと判定した未知語を特定し、特定した未知語を図1の記録部のBERT用単語辞書情報に追加で記録することにより登録する。
図6のSA9において学習部232は、学習済BERTモデル再学習処理を実行する。図13は、学習済BERTモデル再学習処理のフローチャートである。「学習済BERTモデル再学習処理」とは、SA8で新たに登録した未知語等について、学習済BERTモデル(詳細には、本実施の形態では例えば「事前学習済BERTモデル」)を再学習する処理である。
図13のSB1において学習部232は、再学習用情報を取得する。具体的には任意であるが、例えば、記録部22に再学習用情報として記録されているニュース記事の本文を取得する。
図13のSB2において学習部232は、SB1で取得したニュース記事の本文について、単語に分割する処理を行う。具体的には任意であるが、例えば、基本的にはSA5の単語に分割する処理と同様な処理を行い、すなわち、図7の形態素解析用単語辞書情報に基づいて処理を行う。
図13のSB3において学習部232は、SB2で分割した単語の並びを、単語IDの並びに変換する。具体的には任意であるが、例えば、図12のBERT用単語辞書情報であるテキストファイルを参照して、SB2で分割した単語と同じ単語が記録されている行を特定し、当該特定した行に対応する単語IDに変換する。なお、SB2で分割した単語の中には、図12のBERT用単語辞書情報に記録されていない単語も存在し得るが、この場合は、前述した「UNK」に対応する単語IDである「ID1」に変換することとする。
図13のSB4において学習部232は、SB3で変換された単語IDの並びを用いて、図1の記録部22に記録されている学習済BERTモデルについて、再度の機械学習を行うことにより、学習済BERTモデルを更新する(詳細には、本実施の形態では例えば「事前学習済BERTモデル」を「未知語学習済BERTモデル」に更新する)。
図14は、分類処理のフローチャートである。分類処理は、サーバ装置2で行われる処理であり、概略的には、分類タスクを実行する処理である。この分類処理を実行するタイミングは任意であるが、例えば、前述の再学習処理(図6)が実行された後に、タスクモデルを生成する場合に利用される情報を用いて前述の公知の機械学習を行って、「未知語学習済BERTモデル」が「分類学習済BERTモデル」に更新されて記録され、また、タスクモデルが生成されて記録された後のタイミングであり、一例としては、端末装置1のユーザが、当該端末装置1を介して図1の分類対象情報をサーバ装置2に送信することにより入力して格納した後の、所定のタイミング(例えば、ユーザが端末装置1を介して分類処理を実行する操作を行ったタイミング等)に、起動することとし、分類処理が起動したところから説明する。
図14のSC1において制御部23は、分類対象情報を取得する。具体的には任意であるが、例えば、図1の記録部22に分類対象情報として記録されているニュース記事のタイトルを取得する。
図14のSC2において制御部23は、SC1で取得したニュース記事のタイトルについて、単語に分割する処理を行う。具体的には任意であるが、例えば、図13のSB2の処理と同様な処理を行い、すなわち、図7の形態素解析用単語辞書情報に基づいて処理を行う。
図14のSC3において制御部23は、SC2で分割した単語の並びを、単語IDの並びに変換する。具体的には任意であるが、例えば、図13のSB3の処理と同様な処理を行い、すなわち、図12のBERT用単語辞書情報に基づいて処理を行う。
図14のSC4において制御部23は、分散表現数値情報の並びを取得する。具体的には任意であるが、例えば、SC3で変換した単語IDの並びを、各ニュース記事のタイトル単位で、図1の記録部22に記録されている学習済BERTモデル(詳細には、本実施の形態では例えば「分類学習済BERTモデル」)に入力し、当該学習済BERTモデルから出力された分散表現数値情報の並びを取得する。
図14のSC5において制御部23は、カテゴリを示す情報を取得する。具体的には任意であるが、例えば、SC4で取得した分散表現数値情報の並びを、各ニュース記事のタイトル単位で、図1の記録部22に記録されているタスクモデルに入力し、当該タスクモデルから出力されたカテゴリを示す情報(つまり、タスクモデルに入力された分散表現数値情報の並びに対応するタイトルのニュース記事が属するカテゴリを示す情報)を取得する。
図14のSC6において制御部23は、図1の分類対象情報として格納されているニュース記事を分類する。具体的には任意であるが、例えば、SC5で取得したカテゴリを示す情報に基づいて、各ニュース記事をカテゴリに分類し、当該分類結果を示す情報を、端末装置1に送信することにより、当該端末装置1側で当該処理結果を利用可能とする。
前述したように、図6の再学習処理を行って、図12に示すように未知語をBERT用単語辞書に新たに追加した上で、学習済BERTモデルを再学習することにより、当該学習済BERTモデルが、当該追加した未知語についても一意に認識して分散表現数値情報を出力可能となり、学習済BERTモデルを用いて適切に扱える単語数が増加し、結果として、学習済BERTモデル及びタスクモデルにおいて、文章の文脈をより的確にとらえることが可能となるので、ニュース記事の分類精度が向上することになる。
また、図13のSB4で行われる再学習においては、図7のSA8で新たにBERT用単語辞書情報に格納された未知語以外の、当該BERT用単語辞書情報中の単語は、既に機械学習の対象となっているので、当該再学習で用いられる再学習用情報(実施の形態では、ニュース記事の本文)の情報量を低減させることができ、比較的少ない量の再学習用情報を用いて比較的短い時間(例えば、12時間〜24時間等)で再学習を行うことが可能となる。
このように本実施の形態によれば、取得部231が取得した未知語に関する機械学習を行うことにより、例えば、学習済BERTモデルを更新することができるので、当該学習済BERTモデルに基づいて行う処理の処理精度を向上させることが可能となる。また、例えば、新たに学習済BERTモデルを生成するわけではないので、比較的少ない情報量の第2文章情報(ニュース記事の本文)を用いて機械学習を行うことができるので、当該機械学習を行う時間を短縮することが可能となる。
以上、本発明に係る実施の形態について説明したが、本発明の具体的な構成及び手段は、特許請求の範囲に記載した本発明の技術的思想の範囲内において、任意に改変及び改良することができる。以下、このような変形例について説明する。
まず、発明が解決しようとする課題や発明の効果は、上述の内容に限定されるものではなく、発明の実施環境や構成の細部に応じて異なる可能性があり、上述した課題の一部のみを解決したり、上述した効果の一部のみを奏したりすることがある。
また、上述した各電気的構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散や統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散又は統合して構成できる。また、本出願における「装置」とは、単一の装置によって構成されたものに限定されず、複数の装置によって構成されたものを含む。
実施の形態や図面において例示した構成要素に関して、形状、数値、又は複数の構成要素の構造若しくは時系列の相互関係については、本発明の技術的思想の範囲内において、任意に改変及び改良することができる。
また、上記実施の形態のタスクモデルについては、前述したように、機械学習を行うことにより生成されるが、前述の再学習が行われた学習済BERTモデル、及び当該再学習の際に利用したBERT用単語辞書に基づいて行われる処理の処理結果を利用して、機械学習を行うことによりタスクモデルを生成することとしてもよい。
また、図6の再学習処理において、重要単語又は重要フレーズの内の重要単語のみを用いて未知語を取得するように変更してもよい。なお、以下で特記する処理以外の処理は、実施の形態で説明した処理と同様とする(後述する「(再学習処理について(その2))」も同様とする)。処理については例えば、SA1の後のSA2において、重要単語又は重要フレーズの内の重要単語のみを取得する。次に、SA3及びSA4を省略し、SA5において、図4の形態素解析用単語辞書情報(つまり、重要フレーズが追加されていない形態素解析用単語辞書情報)に基づいて単語に分割する処理を行い、この後に、未知語を取得する処理を行う。次に、SA6において、SA5で取得した未知語の中から、SA2で取得した重要単語に合致する未知語のみを取得する。そして、この後、SA7〜SA9を実行する。
また、図6の再学習処理において、形態素解析用単語辞書情報の単語情報として、所定の単語又は所定のフレーズを登録するように変更してもよい。なお、「所定の単語」とは、予め定められた単語であり、例えば、ユーザによってサーバ装置2に入力された単語等を含む概念である。また、「所定のフレーズ」とは、予め定められたフレーズであり、例えば、ユーザによってサーバ装置2に入力されたフレーズ等を含む概念である。処理については例えば、SA1を実行した後に、SA2を省略し、SA3を実行する。次に、SA4において、前述の所定の単語又は所定のフレーズを、図4の形態素解析用単語辞書情報の単語情報として記録することにより登録する。なお、この場合、これらの所定の単語又は所定のフレーズに対応する品詞情報及び読み情報もユーザによってサーバ装置2に入力されることとし、この情報を登録する。次に、SA5において、SA4で所定の単語又は所定のフレーズが登録された形態素解析用単語辞書情報を用いて、単語に分割する処理を行い、この後、未知語を取得する処理を行う。次に、SA6において、SA5で取得した未知語の中から、SA4で登録した所定の単語又は所定のフレーズに合致する未知語のみを取得する。そして、この後、SA7〜SA9を実行する。
また、図6の再学習処理の内の任意の処理を省略又は変更してもよく、例えば、SA3で取得した未知語を全てBERT用単語辞書情報に登録した上で、学習済BERTモデル再学習処理を行うように構成してもよい。又は、SA5で取得した未知語を全てBERT用単語辞書情報に登録した上で、学習済BERTモデル再学習処理を行うように構成してもよい。又は、SA3又はSA5で取得した未知語の内の、SA6で排除した未知語以外の未知語(つまり、「!」等の不要な未知語以外の未知語)を、BERT用単語辞書情報に登録した上で、学習済BERTモデル再学習処理を行うように構成してもよい。
また、上記実施の形態の学習済BERTモデルに関する「初回の機械学習」については、基本的には、学習済BERTモデル再学習処理と同様な処理であるものと解釈してもよい。
また、上記実施の形態では、「事前学習済BERTモデル」が「学習済対象モデル」に対応するものと解釈してもよいと説明したが、他の解釈を適用することも可能である。例えば、図1の記録部22の再学習用情報を入れかえて図6の再学習処理を複数回実行することも想定されるが、この場合、当該再学習処理における処理対象が前回の学習済BERTモデル再学習処理で更新された「未知語学習済BERTモデル」になる場合が想定される。この場合、この前回更新された「未知語学習済BERTモデル」が「学習済対象モデル」に対応するものと解釈してもよい。
また、上記実施の形態の特徴と、変形例の特徴を任意に組み合わせてもよい。
付記1の情報処理システムは、1個以上の単語に関する機械学習を行うことにより生成された学習済対象モデルであって、単語の特徴を示す数値情報を出力する前記学習済対象モデルについて再度機械学習を行うための情報処理システムであって、前記学習済対象モデルにおいて機械学習の対象となっていない未知語を、第1文章情報から取得する取得手段と、第2文章情報を用いて、前記学習済対象モデルについて、少なくとも前記取得手段が取得した前記未知語に関する機械学習を行う学習手段と、を備える。
付記1に記載の情報処理システム、及び付記9に記載の情報処理プログラムによれば、取得手段が取得した未知語に関する機械学習を行うことにより、例えば、学習済対象モデルを更新することができるので、当該学習済対象モデルに基づいて行う処理の処理精度を向上させることが可能となる。また、例えば、新たに学習済対象モデルを生成するわけではないので、比較的少ない情報量の第2文章情報を用いて機械学習を行うことができるので、当該機械学習を行う時間を短縮することが可能となる。
2 サーバ装置
21 通信部
22 記録部
23 制御部
100 情報システム
231 取得部
232 学習部
Claims (8)
- 1個以上の単語に関する機械学習を行うことにより生成された学習済対象モデルであって、単語の特徴を示す数値情報を出力する前記学習済対象モデルについて再度機械学習を行うための情報処理システムであって、
前記学習済対象モデルで一意に識別される単語が記録されている単語辞書情報を格納する格納手段と、
前記学習済対象モデルにおいて機械学習の対象となっていない未知語であって、少なくとも前記格納手段の前記単語辞書情報に記録されていない単語である前記未知語を、第1文章情報から取得する取得手段と、
前記第1文章情報に関連する第2文章情報を用いて、前記学習済対象モデルについて、少なくとも前記取得手段が取得した前記未知語に関する機械学習を行う学習手段と、
を備え、
前記学習手段は、
前記取得手段が取得した前記未知語を前記単語辞書情報に新たに記録する第1処理と、
前記第2文章情報に含まれる文章を単語に分割する第2処理と、
前記格納手段に格納されている前記単語辞書情報に基づいて、前記第2処理で分割された単語を、各単語を識別するための単語識別情報に変換する第3処理と、
前記第3処理で変換された前記単語識別情報に基づいて、前記学習済対象モデルについて機械学習を行う第4処理と、を行う、
情報処理システム。 - 前記学習手段は、
所定の判定基準に基づいて、前記取得手段が取得した前記未知語を機械学習の対象にするか否かを判定し、
前記取得手段が取得した前記未知語の内の、機械学習の対象にするものと判定した前記未知語に関する機械学習を前記学習済対象モデルについて行う、
請求項1に記載の情報処理システム。 - 前記学習手段は、前記取得手段が取得した前記未知語の品詞に関する基準に基づいて、前記取得手段が取得した前記未知語を機械学習の対象にするか否かを判定する、
請求項2に記載の情報処理システム。 - 前記学習手段は、前記取得手段が取得した前記未知語の、前記第1文章情報又は前記第2文章情報内での出現頻度に関する基準に基づいて、前記取得手段が取得した前記未知語を機械学習の対象にするか否かを判定する、
請求項2又は3に記載の情報処理システム。 - 前記取得手段は、所定の特定基準に基づいて、前記第1文章情報において重要単語又は重要フレーズを特定し、特定した前記重要単語又は前記重要フレーズに基づいて、前記第1文章情報から前記未知語を取得する、
請求項1から4の何れか一項に記載の情報処理システム。 - 前記第1文章情報は、ニュース記事のタイトルに対応する文章を示す情報であり、
前記第2文章情報は、ニュース記事の本文に対応する文章を示す情報である、
請求項1から5の何れか一項に記載の情報処理システム。 - 前記第3処理において、前記学習手段は、
前記第2処理で分割された単語が前記単語辞書情報に記録されている場合に、当該単語を一意に識別するための前記単語識別情報である第1単語識別情報に変換し、
前記第2処理で分割された単語が前記単語辞書情報に記録されていない場合に、前記単語辞書情報に記録されていない単語に共通して用いる前記単語識別情報である第2単語識別情報に変換し、
前記第4処理において、前記学習手段は、
前記第3処理で変換された前記第1単語識別情報及び前記第2単語識別情報に基づいて、前記学習済対象モデルについて機械学習を行う、
請求項1から6の何れか一項に記載の情報処理システム。 - 1個以上の単語に関する機械学習を行うことにより生成された学習済対象モデルであって、単語の特徴を示す数値情報を出力する前記学習済対象モデルについて再度機械学習を行うための情報処理プログラムであって、
コンピュータを、
前記学習済対象モデルにおいて機械学習の対象となっていない未知語であって、少なくとも前記学習済対象モデルで一意に識別される単語が記録されている単語辞書情報を格納する格納手段に格納されている前記単語辞書情報に記録されていない単語である前記未知語を、第1文章情報から取得する取得手段と、
前記第1文章情報に関連する第2文章情報を用いて、前記学習済対象モデルについて、少なくとも前記取得手段が取得した前記未知語に関する機械学習を行う学習手段と、
として機能させ、
前記学習手段は、
前記取得手段が取得した前記未知語を前記単語辞書情報に新たに記録する第1処理と、
前記第2文章情報に含まれる文章を単語に分割する第2処理と、
前記格納手段に格納されている前記単語辞書情報に基づいて、前記第2処理で分割された単語を、各単語を識別するための単語識別情報に変換する第3処理と、
前記第3処理で変換された前記単語識別情報に基づいて、前記学習済対象モデルについて機械学習を行う第4処理と、を行う、
情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020147186A JP6936370B1 (ja) | 2020-09-02 | 2020-09-02 | 情報処理システム、及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020147186A JP6936370B1 (ja) | 2020-09-02 | 2020-09-02 | 情報処理システム、及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6936370B1 true JP6936370B1 (ja) | 2021-09-15 |
JP2022042030A JP2022042030A (ja) | 2022-03-14 |
Family
ID=77657926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020147186A Active JP6936370B1 (ja) | 2020-09-02 | 2020-09-02 | 情報処理システム、及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6936370B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210124780A (ko) | 2020-04-07 | 2021-10-15 | 현대자동차주식회사 | 연료전지용 고분자 전해질막 및 이를 제조하는 방법 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6517537B2 (ja) * | 2015-02-26 | 2019-05-22 | 日本電信電話株式会社 | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム |
KR102604552B1 (ko) * | 2016-07-15 | 2023-11-22 | 삼성전자주식회사 | 단어 임베딩 방법, 단어 임베딩 장치, 음성 인식 방법 및 음성 인식 장치 |
US10846319B2 (en) * | 2018-03-19 | 2020-11-24 | Adobe Inc. | Online dictionary extension of word vectors |
-
2020
- 2020-09-02 JP JP2020147186A patent/JP6936370B1/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210124780A (ko) | 2020-04-07 | 2021-10-15 | 현대자동차주식회사 | 연료전지용 고분자 전해질막 및 이를 제조하는 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP2022042030A (ja) | 2022-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bajaj et al. | Ms marco: A human generated machine reading comprehension dataset | |
US9542477B2 (en) | Method of automated discovery of topics relatedness | |
Terechshenko et al. | A comparison of methods in political science text classification: Transfer learning language models for politics | |
Banik et al. | Gru based named entity recognition system for bangla online newspapers | |
Jarvis et al. | Native language identification | |
JP6936370B1 (ja) | 情報処理システム、及び情報処理プログラム | |
Bryl et al. | Interlinking and knowledge fusion | |
Quemy et al. | On integrating and classifying legal text documents | |
JP6409071B2 (ja) | 文の並び替え方法および計算機 | |
Nanni et al. | Semi-supervised textual analysis and historical research helping each other: Some thoughts and observations | |
Petcuşin et al. | An experiment on automated requirements mapping using deep learning methods | |
Popova et al. | Keyphrase extraction using extended list of stop words with automated updating of stop words list | |
Pakray et al. | An hmm based pos tagger for pos tagging of code-mixed indian social media text | |
WO2018066083A1 (ja) | 学習プログラム、情報処理装置および学習方法 | |
Kunanets et al. | Enhanced LSA Method with Ukraine Language Support. | |
Ngo et al. | Identifying user intents in Vietnamese spoken language commands and its application in smart mobile voice interaction | |
JP5342574B2 (ja) | トピックモデリング装置、トピックモデリング方法、及びプログラム | |
Alian et al. | Unsupervised learning blocking keys technique for indexing Arabic entity resolution | |
Langlais et al. | Issues in analogical inference over sequences of symbols: A case study on proper name transliteration | |
Shenoy et al. | Design of chatbot using natural language processing | |
Rajesh et al. | Significance of natural language processing in data analysis using business intelligence | |
Cooper | Data warehouse, bronze, gold, STEC, software | |
Huszár | Multilingual prompt engineering via large language models: an approach to sentiment analysis | |
Espin-Riofrio et al. | Spanish Stylometric Features to Determine Gender and Profession of Ecuadorian Twitter Users | |
Song et al. | A hybrid model for community-oriented lexical simplification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200902 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200902 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200907 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210810 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210826 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6936370 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |