JP7323669B1 - オントロジー生成方法及び学習方法 - Google Patents

オントロジー生成方法及び学習方法 Download PDF

Info

Publication number
JP7323669B1
JP7323669B1 JP2022062071A JP2022062071A JP7323669B1 JP 7323669 B1 JP7323669 B1 JP 7323669B1 JP 2022062071 A JP2022062071 A JP 2022062071A JP 2022062071 A JP2022062071 A JP 2022062071A JP 7323669 B1 JP7323669 B1 JP 7323669B1
Authority
JP
Japan
Prior art keywords
domain knowledge
target text
occurrence
text
generation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022062071A
Other languages
English (en)
Other versions
JP2023152122A (ja
Inventor
欣陽 王
牧 劉
勝司 山下
康宏 岡本
聡 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftBank Corp
Original Assignee
SoftBank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Corp filed Critical SoftBank Corp
Priority to JP2022062071A priority Critical patent/JP7323669B1/ja
Application granted granted Critical
Publication of JP7323669B1 publication Critical patent/JP7323669B1/ja
Publication of JP2023152122A publication Critical patent/JP2023152122A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Figure 0007323669000001
【課題】自然言語処理タスクにおいてテキスト分類に用いる学習データが少ない場合においても、自然言語処理タスクの精度をより向上させる。
【解決手段】本発明の一態様に係るオントロジー生成方法は、テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースに、第1のドメイン知識を追加するオントロジー生成方法であって、対象テキストに含まれる各単語間の共起性を用いて、前記ドメイン知識データベースから第2のドメイン知識を決定するドメイン知識決定工程と、前記第2のドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記第1のドメイン知識を生成し、前記ドメイン知識データベースに追加するドメイン知識追加工程と、を含む。
【選択図】図1

Description

本発明は、オントロジー生成方法及び学習方法に関する。
近年、少ない教師データで効率的に学習モデルを学習させることが可能な機械学習手法の一つとして、Few-Shot learningが知られている。関連する技術として、特許文献1では、複数のオントロジーの各ノードのマッピングにおいて、教師データが少ない場合でも、効率的に学習を行うためのオントロジーマッピングシステムが開示されている。特許文献2では教師データが少ない場合におけるモデルの学習効率を向上させるための学習方法が開示されている。
国際公開番号WO2021/084646A1 特開2020-52644号公報
自然言語処理タスクにおいては、テキスト分類に用いる学習データの分量等に応じて、自然言語処理タスクの精度が左右され得る。この点を踏まえ、上記特許文献に開示された発明とは異なる手法によって、自然言語処理タスクの精度を向上させる余地がある。
本発明の一態様は、自然言語処理タスクにおいてテキスト分類に用いる学習データが少ない場合においても、自然言語処理タスクの精度をより向上させることを目的とする。
本発明の一態様に係るオントロジー生成方法は、テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースに、第1のドメイン知識を追加するオントロジー生成方法であって、対象テキストに含まれる各単語間の共起性を用いて、前記ドメイン知識データベースから第2のドメイン知識を決定するドメイン知識決定工程と、前記第2のドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記第1のドメイン知識を生成し、前記ドメイン知識データベースに追加するドメイン知識追加工程と、を含む。
本発明の他の態様に係る学習方法は、テキスト分類のための学習モデルを学習させる学習方法であって、対象テキストに含まれる各単語間の共起性を用いて、テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースから類似ドメイン知識を決定するドメイン知識決定工程と、前記類似ドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記学習モデルを学習させる学習工程と、を含む。
前記の各態様に係る方法をコンピュータにて実現させる制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。また、前記制御プログラムは、当該方法をコンピュータにて実現させる処理において、各種の機械学習手法を用いてもよい。この場合、機械学習手法を用いるプログラムは、前記コンピュータ上で動作するものであってもよいし、他の装置(例えばエッジコンピュータまたはクラウドサーバ等)で動作するものであってもよい。
本発明の一態様によれば、自然言語処理タスクにおいてテキスト分類に用いる学習データが少ない場合においても、自然言語処理タスクの精度をより向上させることができる。
オントロジー生成装置の概略構成の一例を示す図である。 或るタスクに対応するコーパス情報の一例を示す表である。 或るタスクに対応する共起情報の一例を示している。 ドメイン知識データベースに含まれる情報の一例を示している。 ドメイン知識の追加処理例1の処理の流れを示すフローチャートの一例である。 ドメイン知識の追加処理例2の処理の流れを示すフローチャートの一例である。
以下、本発明の一実施形態について、詳細に説明する。
〔1.概略構成例〕
図1は、本開示に係るオントロジー生成装置1の概略構成の一例を示す図である。図1に示すように、オントロジー生成装置1は、制御部10、記憶部12及び通信部14を備えている。制御部10は、オントロジー生成装置1全体を統括する制御装置であって、例えば1又は複数のプロセッサであり、MPU(Micro Processing Unit)、CPU(Central Processing Unit)、ASIC(Application Specific Integrated Circuit)又はPLD(Programmable Logic Device)等の各種プロセッサを用いることができる。
記憶部12は、各種情報を少なくとも一時的に記憶する記憶装置であって、例えばテキスト分類のための学習モデルを規定するパラメータセットを記憶する。また、記憶部12は、タスク毎に規定されるコーパス情報を格納する。また、タスクとは、テキストが何れの作業又は発生元等に対応するかに応じたカテゴリ毎に区分される分類項目である。タスクの一例としては「人事部門タスク」「市場部門タスク」及び「セキュリティ部門タスク」等が挙げられる。
図2は、或るタスクに対応するコーパス情報の一例を示す表である。図2に示すように、コーパス情報は、テキストとラベルとの1又は複数の組を含んでいる。前述したように、コーパス情報は、タスク毎に規定されるため、同一のテキストに対応するラベルは、第1のタスクと第2のタスクとで互いに異なり得る。
図2の例において、テキストは、ウェブページの感想を示しており、ラベルは、対応するテキストが「Positive」即ち肯定的であるか、「Negative」即ち否定的であるかを示している。自然言語処理タスクの一態様においては、コーパス情報を教師データとして学習された学習モデルであってテキスト分類のための学習モデルにテキストが入力され、当該テキストが肯定的であるか否定的であるかの結果が出力される。
通信部14は、制御部10による制御に基づいて、記憶装置3等の外部の装置との通信処理を行うことによって各種情報を送受信するインタフェースである。
記憶装置3は、テキスト分類に用いる1又は複数のドメイン知識を含むデータベースであるドメイン知識データベースを記憶する記憶装置であって、例えばデータサーバとして実現される。なお、ドメイン知識データベースの一部又は全部は、記憶部12が記憶する構成であってもよい。以下、ドメイン知識データベースには、複数のドメイン知識が含まれるものとして説明する。
本開示において、ドメイン知識とは、テキストを構成するトークン(単語)の各々に対してタスク毎に規定されるEmbedding及びTF-IDF(Term Frequency - Inverse Document Frequency)を意味している。ここで、Embeddingとは、複数の数値を有するベクトルの形式によってトークンを表したものである。Embeddingを算出するためのアルゴリズムとしては、Word2Vec、GloVe又はfastText等が挙げられる。
TF-IDFとは、対象となるトークンが、1又は複数のテキストにおいてどの程度重要であるかを示す指標値、或いは当該指標値を算出するためのアルゴリズムである。具体的には、TF-IDFは、或るテキスト内において当該トークンがどの程度出現するかを示すTFと、当該トークンを含むテキストがどの程度少ない頻度で存在するかを示すIDFとを掛け合わせた値となる。
また、ドメイン知識データベースには、或る2つの単語が、或るタスクに対応する単一のテキストに含まれる度合である共起性を示す共起情報が含まれる。共起情報は、Embedding及びTF-IDFと同様にタスク毎に規定される。Embedding、TF-IDF及び共起情報は、例えば或るタスクに対応するテキストを用いた学習における中間生成物として生成される情報である。一態様において、Embedding、TF-IDF及び共起情報は、共通して対応するタスクを識別するための情報であるIDを介して互いに関連付けられる。また、前述したドメイン知識及び共起情報は、オントロジーの一例である。
図3は、或るタスクに対応する共起情報の一例を示している。図3の例においては、「スマートフォン」と「パソコン」との共起性は10であり、「スマートフォン」と「購入」との共起性は15である。この場合、当該タスクに対応するテキストにおいては、「スマートフォン」と「パソコン」とが一文に含まれる割合よりも「スマートフォン」と「購入」とが一文に含まれる割合の方が高い。
図4は、ドメイン知識データベースに含まれる情報の一例を示している。図4に例示するように、或る同じトークンに対応するEmbedding及びTF-IDF、並びに或るトークン同士の共起性は、第1のタスクと第2のタスクとで互いに異なり得る。
〔2.ドメイン知識の追加処理例1〕
続いて、オントロジー生成装置1によって実行される処理の一例について説明する。図5は、本例の処理の流れを示すフローチャートの一例である。また、図5は、或るタスクに対応するコーパス情報に基づくドメイン知識をドメイン知識データベースに追加する処理の流れを示している。
S101において、制御部10は、コーパス情報に含まれる任意の対象テキストに対する前処理として、対象テキストをトークンに分割する処理、即ち品詞毎に分割する処理と、ストップワードを削除する処理とを行う。例えば対象テキストが「ウェブページの表示速度が速い!」であった場合、制御部10は、対象テキストから「ウェブページ」「表示」「速度」「早い」という複数のトークンを生成する。
S102において、制御部10は、既存のWord Embeddingモデルを参照して、生成したトークンの各々に対応するEmbeddingを取得する。また、既存のWord Embeddingモデルとしては、Word2Vec、GloVe又はfastText等が挙げられる。
S103において、制御部10は、対象テキストの各Embeddingと、当該対象テキストに対応するラベルとを、テキスト分類のための学習モデルに入力することによって、当該学習モデルを学習させる。ここで、学習モデルを学習させる手法は、DNNテキスト分類モデルを訓練する既存の手法であってもよい。学習モデルの学習によって、各Embeddingと、記憶部12が記憶するパラメータセットとが更新されて、テキスト分類の精度が向上する。また、S103の工程は、学習工程の一例である。
S104において、制御部10は、学習モデルの学習によって更新された各Embeddingを取得する。
S105において、制御部10は、対象テキストのトークンの各々について、TF-IDFを、コーパス情報の各テキストを用いて算出する。制御部10は、テキスト毎に求められる当該トークンのTF-IDFのうち、最も高い値のTF-IDFを算出結果として記憶部12に記憶させる。また、制御部10は、対象テキストのトークン同士の共起性を、コーパス情報の各テキストを用いて算出する。
S106において、制御部10は、コーパス情報に対応するタスクを識別するための情報であるIDに関連付けて、各トークンに対応する更新後のEmbedding、及びTF-IDFを、ドメイン知識としてドメイン知識データベースにそれぞれ追加する。ドメイン知識データベースに追加される更新後のEmbedding及びTF-IDFは、本開示における第1のドメイン知識の一例である。また、制御部10は、当該IDに関連付けて、算出した共起性を、共起情報としてドメイン知識データベースに追加する。
また、制御部10は、コーパス情報に含まれるその他のテキストの一部又は全部を順に対象テキストとして、S101~S106の処理を行う。当該処理において、制御部10は、ドメイン知識データベースに追加するEmbedding、TF-IDF及び共起情報が、当該コーパス情報に対応するタスクのIDに関連付けられて既にドメイン知識データベースに存在する場合、情報を上書きして追加してもよい。また、後述する追加処理例2においても同様である。
〔3.ドメイン知識の追加処理例2〕
続いて、オントロジー生成装置1によって実行される処理の他の一例について説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、重複する説明を繰り返さない。本例においては、タスクに対応するコーパス情報における一部のテキストにラベルが付されていない場合、換言すると前記タスクがFew-Shotタスクである場合等にドメイン知識をドメイン知識データベースに追加する処理の流れについて説明する。図6は、本例の処理の流れを示すフローチャートの一例である。
S201においては、Few-Shotタスクに対応するコーパス情報を対象として、S101と同様の処理が実行される。即ち制御部10は、対象テキストに対する前処理として対象テキストをトークンに分割する処理、即ち品詞毎に分割する処理と、ストップワードを削除する処理とを行い、対象テキストから複数のトークンを生成する。
S202において、制御部10は、対象テキストのトークン間の共起性を、コーパス情報の各テキストを用いて算出する。更に、制御部10は、各タスクを示すIDに関連付けられた共起情報を参照して、ドメイン知識データベースに含まれる複数のドメイン知識の各々について、当該ドメイン知識に対応する前記トークン間の共起性を算出する。
S203において、制御部10は、ドメイン知識データベースに含まれる複数のドメイン知識のうち、コーパス情報に対応する共起性と類似度が最も高くなる共起性に対応するドメイン知識を決定する。一態様において、各共起性の類似度は、各共起性のコサイン類似度によって算出される。ここで、コサイン類似度とは、2つのベクトル間における類似度の尺度の一種である。制御部10は、前記コサイン類似度が最も類似する共起性同士を、最も類似度が高い共起性として決定する。
また、前記コサイン類似度が最も類似するドメイン知識は、本開示における第2のドメイン知識に相当する。本開示においては、簡略化のため、前記コサイン類似度が最も類似するドメイン知識のことを「第2のドメイン知識」或いは「類似ドメイン知識」とも呼称する。コサイン類似度の値は、或る対象タスク同士の間において、対象タスクの全てのトークンを用いて算出される。
例えば、対象タスクに「私は、スマートフォンの購入を希望しています」というテキストが対応し、当該対象タスクに含まれるトークンが「私」「スマートフォン」「購入」「希望」であった場合において、トークン間の共起性がそれぞれ以下の通りであったとする。
<コーパス情報に対応する共起性>
[(私,スマートフォン),(私,購入),(私,希望),(スマートフォン,購入),(スマートフォン,希望),(購入,希望)]=[3,3,3,3,3,3]
<タスクAのドメイン知識に対応する共起性>
[(私,スマートフォン),(私,購入),(私,希望),(スマートフォン,購入),(スマートフォン,希望),(購入,希望)]=[100,100,1,1,0,0]
<タスクBのドメイン知識に対応する共起性>
[(私,スマートフォン),(私,購入),(私,希望),(スマートフォン,購入),(スマートフォン,希望),(購入,希望)]=[2,1,1,1,0,1]
前記の場合、コーパス情報に対応する共起性とタスクAのドメイン知識に対応する共起性とのコサイン類似度は0.5831、コーパス情報に対応する共起性とタスクBのドメイン知識に対応する共起性とのコサイン類似度は0.8660となり、後者のコサイン類似度の方が、類似度が高い。
また、S203の工程は、対象タスクに含まれる各トークン間の共起性を用いて、ドメイン知識データベースから第2のドメイン知識を決定するドメイン知識決定工程に相当する。別の側面から言えば、ドメイン知識決定工程においては、ドメイン知識データベースに含まれる複数のドメイン知識の各々について、当該ドメイン知識に対応する前記各単語間の共起性と、前記対象テキストに含まれる各単語間の共起性との類似度が算出される。そして、前記複数のドメイン知識のうち前記類似度が最も高くなるドメイン知識が、前記第2のドメイン知識として決定される。コーパス情報と最も類似度の高いドメイン知識が第2のドメイン知識として用いられることにより、Few-Shotタスク等の精度を向上させることに寄与する。
また、ドメイン知識データベースは、第2のドメイン知識の候補となるデフォルトのドメイン知識を含んでいてもよいし、図1に示す構成のように、オントロジー生成方法を実行する装置とは異なるサーバ上に保存されたドメイン知識を含んでいてもよい。一態様において、コーパス情報に対応する共起性と、デフォルトのドメイン知識に対応する共起性とのコサイン類似度が所定値以下であれば、制御部10は、デフォルトのドメイン知識を第2のドメイン知識として決定してもよい。また、デフォルトのドメイン知識は、例えば各トークンの意味が記載された既存のWiki、及び学習モデルを用いて訓練されたドメイン知識であってもよい。
S204において、制御部10は、対象テキストのトークンの各々に対して、第2のドメイン知識における当該トークンのEmbeddingとTF-IDFとのうち、いずれを関連付けるかに応じた分岐を行う。制御部10は、対象テキストのトークンの各々に対して当該Embeddingのみを関連付ける場合にはS205の処理を行い、当該TF-IDFのみを関連付ける場合にはS206の処理を行う。また、当該Embeddingと当該TF-IDFとの双方を関連付ける場合にはS207の処理を行う。また、S205~S207の工程においては、制御部10が、対象テキストのトークンに対応するドメイン知識として、第2のドメイン知識を設定する。
また、S204に続いてS205~S207の何れに遷移するかは、図示しない入力装置を介してオントロジー生成装置1に対してユーザが指定可能であってもよい。ただし、コーパス情報のデータ量が少ない場合には、S205又はS207に遷移することが望ましい。なお、制御部10は、S205~S207のうち2つ又は3つの処理と、後述するS208の処理とを行い、S205~S207のうち何れの処理を行った場合にテキスト分類の精度が最も向上したかを導出し、前記精度が最も向上した処理結果を、学習モデルに反映する構成であってもよい。
S205において、制御部10は、対象テキストのトークンの各々について、第2のドメイン知識における当該トークンのEmbeddingを取得する。また、制御部10は、対象テキストのトークンの各々について、TF-IDFを、コーパス情報の各テキストを用いて算出する。なお、制御部10は、第2のドメイン知識において、対応するトークンのEmbeddingが存在しない場合、既存のWord Embeddingモデルを参照して、対応するEmbeddingを取得してもよい。
S206において、制御部10は、対象テキストのトークンの各々について、第2のドメイン知識における当該トークンのTF-IDFを取得する。また、制御部10は、既存のWord Embeddingモデルを参照して、対象テキストのトークンの各々に対応するEmbeddingを取得する。
S207において、制御部10は、対象テキストのトークンの各々について、第2のドメイン知識における当該トークンのEmbeddingとTF-IDFとを取得する。
S208において、制御部10は、対象テキストのトークンの各々に対応するEmbeddingのベクトルの末尾にTF-IDFを追加する。なお、トークンに対応するTF-IDFが存在しない場合、制御部10は、当該トークンに対応するEmbeddingのベクトルの末尾に0の値を追加する。
これにより、ベクトルの次元数が1だけ増加する。続いて制御部10は、TF-IDFが追加されたEmbeddingと、対象テキストに対応するラベルとを、テキスト分類のための学習モデルに入力することによって、当該学習モデルを学習させる。
このように、S208においては、対象テキストに含まれる各トークンのEmbeddingとTF-IDFとが、学習モデルに入力される。ただし、対象テキストにラベルが付されていない場合、制御部10は、ラベルについては学習モデルへの入力を行わない。
また、S208の工程は、学習工程の一例である。前述したように、S208においては、第2のドメイン知識に含まれる情報であって、対象テキストに含まれる各トークンに関連付けられた情報であるドメイン知識を用いて、学習モデルの学習が行われる。なお、例えば或る対象トークンのEmbeddingのサイズが所定サイズよりも大きい場合、TF-IDFが学習モデルには入力されない構成であってもよい。
S209において、制御部10は、学習モデルの学習によって更新された各EmbeddingとTF-IDFとを取得する。前記Embeddingには、更新されたTF-IDFがベクトルの末尾に含まれる。
S210において、制御部10は、コーパス情報に対応するタスクを識別するためのIDに関連付けて、各トークンに対応する更新後のEmbedding及びTF-IDFを、ドメイン知識としてドメイン知識データベースにそれぞれ追加する。ドメイン知識データベースに追加される更新後のEmbedding及びTF-IDFは、本開示における第1のドメイン知識の一例である。また、制御部10は、当該IDに関連付けて、算出した共起性を、共起情報としてドメイン知識データベースに追加する。
また、S208~S210の工程は、ドメイン知識追加工程に相当する。ドメイン知識追加工程において、制御部10は、第2のドメイン知識に含まれる情報であって、対象テキストに含まれる各トークンに関連付けられた情報であるEmbeddingとTF-IDFとのうち少なくとも何れかを用いて第1のドメイン知識を生成する。また、制御部10は、当該第1のドメイン知識をドメイン知識データベースに追加する。これにより、第2のドメイン知識のEmbeddingとTF-IDFとのうち少なくとも何れかを用いて、テキスト分類に用いる情報の分量を増加せることができる。
また、前述したように、ドメイン知識追加工程においては、対象テキストに含まれる各トークンであって、第2のドメイン知識における各トークンのドメイン知識と当該対象テキストに対応するラベルとの組が、テキスト分類のための学習モデルに入力される。これにより、当該ドメイン知識と、記憶部12が記憶するパラメータセットとが更新されてテキスト分類の精度が向上する。また、更新された当該ドメイン知識が、第1のドメイン知識としてドメイン知識データベースに追加される。
また、制御部10は、コーパス情報に含まれるその他のテキストの一部又は全部を順に対象テキストとして、S201~S210の処理を行う。
本例の構成によれば、第2のドメイン知識を用いて第1のドメインを生成し、ドメイン知識データベースへの追加を行うことができる。これにより、自然言語処理タスクにおいてテキスト分類に用いる学習データが少ない場合においても、自然言語処理タスクの精度をより向上させることができる。
〔ソフトウェアによる実現例〕
オントロジー生成装置1(以下、「装置」と呼ぶ)の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック(特に制御部10)としてコンピュータを機能させるためのプログラムにより実現することができる。
この場合、上記装置は、上記プログラムを実行するためのハードウェアとして、少なくとも1つの制御装置(例えばプロセッサ)と少なくとも1つの記憶装置(例えばメモリ)を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。
上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、1または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。
また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。
また、上記各実施形態で説明した各処理は、AI(Artificial Intelligence:人工知能)に実行させてもよい。この場合、AIは上記制御装置で動作するものであってもよいし、他の装置(例えばエッジコンピュータまたはクラウドサーバ等)で動作するものであってもよい。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
1 オントロジー生成装置
3 記憶装置(サーバ)
10 制御部
12 記憶部
14 通信部

Claims (9)

  1. テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースに、第1のドメイン知識を追加する、コンピュータによって実行されるオントロジー生成方法であって、
    対象テキストに含まれる各単語間の共起性を用いて、前記ドメイン知識データベースから、前記第1のドメイン知識に類似する第2のドメイン知識を決定するドメイン知識決定工程と、
    前記第2のドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記第1のドメイン知識を生成し、前記ドメイン知識データベースに追加するドメイン知識追加工程と、
    を含むオントロジー生成方法。
  2. 前記ドメイン知識決定工程においては、
    前記ドメイン知識データベースに含まれる複数のドメイン知識のうち、前記第1のドメイン知識とのコサイン類似度が最も類似するドメイン知識が、前記第2のドメイン知識として決定される、請求項1に記載のオントロジー生成方法。
  3. 前記ドメイン知識決定工程においては、
    前記ドメイン知識データベースに含まれる複数のドメイン知識の各々について、当該ドメイン知識に対応する前記各単語間の共起性と、前記対象テキストに含まれる各単語間の共起性との類似度が算出され、前記複数のドメイン知識のうち前記類似度が最も高くなるドメイン知識が、前記第2のドメイン知識として決定される、請求項2に記載のオントロジー生成方法。
  4. 前記ドメイン知識追加工程においては、
    当該対象テキストに含まれる各単語に関連付けられた情報として、前記第2のドメイン知識に含まれるEmbeddingが少なくとも用いられる、請求項1から3までの何れか1項に記載のオントロジー生成方法。
  5. 前記ドメイン知識追加工程においては、
    当該対象テキストに含まれる各単語であって、前記第2のドメイン知識における各単語のEmbeddingと当該対象テキストに対応するラベルとの組が、テキスト分類のための学習モデルに入力されることによって当該Embeddingが更新され、更新された当該Embeddingが、前記第1のドメイン知識として追加される、請求項4に記載のオントロジー生成方法。
  6. 前記ドメイン知識追加工程においては、
    当該対象テキストに含まれる各単語のEmbeddingとTF-IDFとが、前記学習モデルに入力される、請求項5に記載のオントロジー生成方法。
  7. 前記ドメイン知識追加工程においては、
    当該対象テキストに含まれる各単語に関連付けられた情報として、前記第2のドメイン知識に含まれるTF-IDFであって、各単語のTF-IDFが少なくとも用いられる、請求項1から3までの何れか1項に記載のオントロジー生成方法。
  8. 前記ドメイン知識データベースは、
    前記第2のドメイン知識の候補となるデフォルトのドメイン知識であって、当該オントロジー生成方法を実行する装置とは異なるサーバ上に保存されたドメイン知識を含む、請求項1から3までの何れか1項に記載のオントロジー生成方法。
  9. テキスト分類のための学習モデルを学習させる、コンピュータによって実行される学習方法であって、
    対象テキストに含まれる各単語間の共起性を用いて、テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースから類似ドメイン知識を決定するドメイン知識決定工程と、
    前記類似ドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記学習モデルを学習させる学習工程と、
    を含み、
    前記類似ドメイン知識は、当該類似ドメイン知識に対応する各単語間の共起性が、前記対象テキストに含まれる各単語間の共起性と類似するドメイン知識である、学習方法。
JP2022062071A 2022-04-01 2022-04-01 オントロジー生成方法及び学習方法 Active JP7323669B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022062071A JP7323669B1 (ja) 2022-04-01 2022-04-01 オントロジー生成方法及び学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022062071A JP7323669B1 (ja) 2022-04-01 2022-04-01 オントロジー生成方法及び学習方法

Publications (2)

Publication Number Publication Date
JP7323669B1 true JP7323669B1 (ja) 2023-08-08
JP2023152122A JP2023152122A (ja) 2023-10-16

Family

ID=87519415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022062071A Active JP7323669B1 (ja) 2022-04-01 2022-04-01 オントロジー生成方法及び学習方法

Country Status (1)

Country Link
JP (1) JP7323669B1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569985A (zh) 2019-03-09 2019-12-13 华南理工大学 基于在线和离线决策集成学习的在线异构迁移学习的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569985A (zh) 2019-03-09 2019-12-13 华南理工大学 基于在线和离线决策集成学习的在线异构迁移学习的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
B▲A▼CK, Jesper,Domain similarity metrics for predicting transfer learning performance [online],2019年,pp.1-38,[検索日:2023.03.17], Internet<URL:https://diva-portal.org/smash/record.jsf?pid=diva2%3A1276490&dswid=6144>

Also Published As

Publication number Publication date
JP2023152122A (ja) 2023-10-16

Similar Documents

Publication Publication Date Title
US9542477B2 (en) Method of automated discovery of topics relatedness
CN109271521B (zh) 一种文本分类方法及装置
US10678769B2 (en) Artificial intelligence system and method for auto-naming customer tree nodes in a data structure
Soni et al. Sentiment analysis of customer reviews based on hidden markov model
JP5881048B2 (ja) 情報処理システム、及び、情報処理方法
Balikas et al. Twise at semeval-2016 task 4: Twitter sentiment classification
JP2016207141A (ja) 要約生成装置、要約生成方法、及び要約生成プログラム
US11669687B1 (en) Systems and methods for natural language processing (NLP) model robustness determination
JP2022109836A (ja) テキスト分類情報の半教師あり抽出のためのシステム及び方法
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
CA3131157A1 (en) System and method for text categorization and sentiment analysis
JP6770709B2 (ja) 機械学習用モデル生成装置及びプログラム。
CN108182182A (zh) 翻译数据库中文档匹配方法、装置及计算机可读存储介质
JP2019082860A (ja) 生成プログラム、生成方法及び生成装置
JP7323669B1 (ja) オントロジー生成方法及び学習方法
KR102400689B1 (ko) 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램
Wongchaisuwat Automatic keyword extraction using textrank
JPWO2015040860A1 (ja) 分類辞書生成装置、分類辞書生成方法及びプログラム
US11580499B2 (en) Method, system and computer-readable medium for information retrieval
CN114115878A (zh) 一种工作流节点推荐方法及装置
CN113297854A (zh) 文本到知识图谱实体的映射方法、装置、设备及存储介质
JP2018092347A (ja) 情報処理装置、情報処理方法及びプログラム
Bembenik et al. Intelligent methods and big data in industrial applications
CN105808522A (zh) 一种语义联想的方法及装置
CN107622129B (zh) 一种知识库的组织方法及装置、计算机存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230727

R150 Certificate of patent or registration of utility model

Ref document number: 7323669

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150