JP2019012457A - Information processing device, information processing method, and program - Google Patents
Information processing device, information processing method, and program Download PDFInfo
- Publication number
- JP2019012457A JP2019012457A JP2017129309A JP2017129309A JP2019012457A JP 2019012457 A JP2019012457 A JP 2019012457A JP 2017129309 A JP2017129309 A JP 2017129309A JP 2017129309 A JP2017129309 A JP 2017129309A JP 2019012457 A JP2019012457 A JP 2019012457A
- Authority
- JP
- Japan
- Prior art keywords
- word
- category
- information processing
- relationship
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 100
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 238000013145 classification model Methods 0.000 claims abstract description 71
- 239000013598 vector Substances 0.000 claims description 101
- 238000000605 extraction Methods 0.000 claims description 56
- 230000014509 gene expression Effects 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 abstract description 6
- 238000000034 method Methods 0.000 description 36
- 239000000284 extract Substances 0.000 description 28
- 230000008569 process Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Abstract
Description
本発明は、情報処理装置、情報処理方法及びプログラムに関する。 The present invention relates to an information processing apparatus, an information processing method, and a program.
ユーザからの問い合わせに自動応答するチャットボット等では、自然言語処理の技術を用いて、FAQや問い合わせ対応ログ等のテキストデータから学習し、文章の意味解釈等を行う。このような自然言語処理においては、文の構造(形態素、係り受け構造等)と意味(述語項構造、意味役割、意味フレーム等)とを解析する技術が必要とされる。例えば、意味解析システムには、入力文を形態素解析と係り受け解析して得られた文節に対してカテゴリ辞書を参照してカテゴリを付与し、その後、述語とそれに係る文節のカテゴリ情報をキーに意味フレーム辞書を参照して述語項構造解析を行い、その後、述語の語義(意味フレーム)を同定して、係り関係にある項の意味役割を付与するものがある。しかし、カテゴリ辞書に登録されていない単語が文中に含まれる場合、そのままではキーとなる文節のカテゴリを決定できないため意味フレーム辞書を引けず、意味役割を付与できない問題が起こる。つまり、意味解析できる文章の範囲は、カテゴリ辞書に登録された単語の範囲によって制限される。単語のカテゴリを正しく決定することは重要なステップである。
カテゴリ辞書に登録された単語数を増やせば、単語のカテゴリをより正しく決定することができるが、人手による単語登録には単語の意味に関する専門知識が必要である。専門用語の数が多かったり日々増えたりする領域(ドメイン)において、人手のみでカテゴリ辞書を作成するのは労力が必要である。そこで、カテゴリ辞書に登録された単語の類義語を抽出し、類義語に対しても前記単語と同一のカテゴリを指定することで、登録単語数を増やす方法が考えられる。
類義語の抽出技術として、例えば、特許文献1には、単語共起データに基づき、入力された単語の類義語を抽出する技術が開示されている。特許文献1に開示された技術は、入力単語と類義語候補の共起頻度に基づいているため、意味的には関係ないが共起する単語も類義語と判定することがあり、精度が低いという問題がある。
また、特許文献2には、テキストから抽出した単語の組に対して生成した素性ベクトルに対し、類義語辞書を参照してラベルを付与し学習を行うことで、任意の単語の組の2つの単語が類義語か否かを判定する技術が開示されている。特許文献2に開示された類義語判定技術は教師あり学習の一種であり、精度を向上させるためには、多量の正解データを要する。また、類義語辞書は類義語である単語ペアが格納されたデータであるから、カテゴリ辞書を正解データとして利用することができないという問題がある。
In a chat bot or the like that automatically responds to an inquiry from a user, natural language processing technology is used to learn from text data such as FAQs and inquiry correspondence logs, and to interpret the meaning of sentences. In such natural language processing, a technique for analyzing the structure (morpheme, dependency structure, etc.) and meaning (predicate term structure, semantic role, semantic frame, etc.) of the sentence is required. For example, in the semantic analysis system, a category is assigned to a phrase obtained by performing morphological analysis and dependency analysis of an input sentence, and then a category is assigned to the phrase, and then the category information of the predicate and the related phrase is used as a key. Some predicate term structure analysis is performed with reference to the semantic frame dictionary, and then the meaning of the predicate (semantic frame) is identified and the semantic roles of the terms in the relationship are given. However, when a word that is not registered in the category dictionary is included in the sentence, there is a problem that the semantic category cannot be assigned and the semantic role cannot be assigned because the category of the phrase that is a key cannot be determined as it is. In other words, the range of sentences that can be semantically analyzed is limited by the range of words registered in the category dictionary. Proper determination of word categories is an important step.
If the number of words registered in the category dictionary is increased, the category of the word can be determined more correctly, but manual word registration requires specialized knowledge regarding the meaning of the word. In an area (domain) in which the number of technical terms is large or increases day by day, it takes labor to create a category dictionary by hand. Therefore, a method of increasing the number of registered words by extracting synonyms of words registered in the category dictionary and designating the same category as the words for the synonyms can be considered.
As a synonym extraction technique, for example, Patent Document 1 discloses a technique for extracting a synonym of an input word based on word co-occurrence data. Since the technique disclosed in Patent Document 1 is based on the co-occurrence frequency of an input word and a synonym candidate, there is a problem that a word that co-occurs although it is not related semantically may be determined as a synonym, and accuracy is low. There is.
Further, in Patent Document 2, two words of an arbitrary word set are learned by assigning a label to a feature vector generated with respect to a word set extracted from a text with reference to a synonym dictionary and learning. A technique for determining whether or not is a synonym is disclosed. The synonym determination technique disclosed in Patent Document 2 is a kind of supervised learning, and a large amount of correct answer data is required to improve accuracy. Further, since the synonym dictionary is data in which word pairs that are synonyms are stored, there is a problem that the category dictionary cannot be used as correct answer data.
上記のような問題により、単語のカテゴリが決定できなかったり、誤ったカテゴリが決定されたりして、単語のカテゴリ分類が失敗する場合がある。そこで、本発明は、単語のカテゴリ分類の精度向上の実現を支援することを目的とする。 Due to the problems described above, the category of a word may fail because the category of the word cannot be determined or an incorrect category is determined. Therefore, an object of the present invention is to support improvement in accuracy of word category classification.
そこで、本発明の情報処理装置は、複数の文章から、単語を抽出する抽出手段と、単語に対応するカテゴリの情報を含むカテゴリ辞書に基づいて、前記抽出手段により抽出された単語のうち、前記カテゴリ辞書に登録されている単語のカテゴリを決定する決定手段と、前記複数の文章に基づいて、前記決定手段によりカテゴリが決定された単語の分散表現を取得する取得手段と、前記取得手段により取得された分散表現と、前記決定手段により決定されたカテゴリと、に基づいて、分散表現で表された単語のカテゴリを分類する分類モデルを学習する学習手段と、を有する。 Therefore, the information processing apparatus of the present invention is based on an extraction unit that extracts a word from a plurality of sentences and a category dictionary that includes information on a category corresponding to the word, and among the words extracted by the extraction unit, Determination means for determining a category of a word registered in a category dictionary, acquisition means for acquiring a distributed representation of a word whose category is determined by the determination means based on the plurality of sentences, and acquisition by the acquisition means Learning means for learning a classification model for classifying the category of the word represented by the distributed expression based on the determined distributed expression and the category determined by the determining means.
本発明によれば、単語のカテゴリ分類の精度向上の実現を支援することができる。 According to the present invention, it is possible to support improvement in accuracy of word category classification.
以下、本発明の実施形態について図面に基づいて説明する。
<実施形態1>
(本実施形態の処理の概要)
本実施形態の処理の概要を説明する。本実施形態では、情報処理装置100が処理の主体であるとする。情報処理装置100は、パーソナルコンピュータ(PC)、サーバ装置、タブレット装置、スマートホン等の情報処理装置である。
本実施形態では、情報処理装置100は、課題管理システムにおける複数のチケットデータを含むコーパスデータから、文章中の単語を抽出する。コーパスデータは、チケットデータ以外の文章を含むこととしてもよい。そして、情報処理装置100は、カテゴリ辞書を参照して、コーパスデータから抽出された単語のうち、カテゴリ辞書に登録されている単語についてカテゴリを決定する。カテゴリとは、単語の性質を区分する上での分類である。そして、情報処理装置100は、カテゴリを決定した各単語の分散表現を取得する。そして、情報処理装置100は、カテゴリを決定した各単語の分散表現と、カテゴリを決定した各単語のカテゴリと、に基づいて、カテゴリの分類に利用されるカテゴリ分類モデルを学習する。カテゴリ分類モデルは、例えば、単語の分散表現を入力として受付け、その単語のカテゴリを出力として返す分類器である。
情報処理装置100は、学習した分類器を用いて、コーパスデータから抽出された単語のうち、カテゴリ辞書に登録されていない単語のカテゴリを決定する。これにより、情報処理装置100は、コーパスデータから抽出された単語のうち、カテゴリ辞書に登録されていない単語についても、カテゴリを決定することができる。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
<Embodiment 1>
(Outline of processing of this embodiment)
An overview of the processing of this embodiment will be described. In the present embodiment, it is assumed that the
In this embodiment, the
The
また、情報処理装置100は、カテゴリを決定した各単語について、不適切なカテゴリが付与されている単語を検知する。情報処理装置100は、互いに類義する単語Aと単語Bとを特定する。そして、情報処理装置100は、単語Aとある関係性を有する単語Cと、単語Bと同様の関係性を有する単語Dと、を特定する。情報処理装置100は、特定した単語A、B、C、Dの分散表現の意味空間上での位置関係に基づいて、単語C、Dについて、カテゴリが不適切な可能性があることを検知する。
情報処理装置100は、単語C、Dについてカテゴリを修正し、カテゴリを修正した単語に基づいて、カテゴリ分類モデルを学習し直す。
Further, the
The
(情報処理装置のハードウェア構成)
図1は、情報処理装置100のハードウェア構成の一例を示す図である。
情報処理装置100は、CPU101、主記憶装置102、補助記憶装置103、ネットワークI/F104、入出力I/F105を含む。各要素は、システムバス106を介して、相互に通信可能に接続されている。
CPU101は、情報処理装置100を制御する中央演算装置である。主記憶装置102は、CPU101のワークエリアやデータの一時的な記憶場所として機能するRandom Access Memory(RAM)等の記憶装置である。
(Hardware configuration of information processing device)
FIG. 1 is a diagram illustrating an example of a hardware configuration of the
The
The
補助記憶装置103は、各種設定情報、各種プログラム、コーパスデータ、教師データ、各種辞書データ、各種モデル情報、各種閾値の情報等を記憶する記憶装置である。本実施形態では、補助記憶装置103は、文章データである課題管理システムにおけるチケットデータを複数含むコーパスデータを記憶する。また、補助記憶装置103は、カテゴリ辞書データを記憶する。カテゴリ辞書データには、複数の単語が登録されており、登録されている各単語のカテゴリの情報が含まれる。カテゴリ辞書データは、例えば、単語と、カテゴリと、の対応を示すテーブル形式のデータである。図2は、カテゴリ辞書データの一例を示す図である。図2の例では、単語の項目は、登録されている各単語を示し、カテゴリの項目は、対応する単語のカテゴリを示す。
また、補助記憶装置103は、意味フレーム辞書データを記憶する。意味フレーム辞書データは、述語と、その述語に係る文節のカテゴリと、が複数登録されており、登録されている「述語+その述語に係る文節のカテゴリ」に対応する意味フレーム(意味役割・意味等の情報)が含まれる。意味フレーム辞書データは、例えば、述語と、その述語に係る文節のカテゴリと、意味フレームと、の対応を示すテーブル形式のデータである。図3は、意味フレーム辞書データの一例を示す図である。図3の例では、述語の項目は、登録されている述語を示し、「項」の項目は、対応する述語に係る文節の情報を示す。また、「カテゴリ」の項目は、対応する文節内の単語のカテゴリを示し、「格」の項目は、対応する文節内の単語に続く助詞を示し、「意味役割」の項目は、対応する文節の意味役割を示す。また、「述語の意味」の項目は、対応する述語の意味を示す。補助記憶装置103は、例えば、Read Only Memory(ROM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、フラッシュメモリ等の記憶媒体として、構成される。
ネットワークI/F104は、インターネットやLAN等のネットワークを介した外部の装置との間での通信に利用されるインターフェースである。入出力I/F105は、マウス、キーボード、タッチパネルの操作部等の入力装置からの情報の入力に利用されるインターフェースである。また、入出力I/F105は、ディスプレイ、タッチパネルの表示部、スピーカ等の出力装置への情報の出力に利用されるインターフェースである。
CPU101が、補助記憶装置103に記憶されたプログラムに基づき処理を実行することで、図4で後述する情報処理装置100の機能及び図5、6、7で後述するフローチャートの処理等が実現される。
The
The
The network I /
When the
(情報処理装置の機能構成)
図4は、情報処理装置100の機能構成の一例を示す図である。
情報処理装置100は、取得部401、学習部402、抽出部403、更新部404を含む。
取得部401は、補助記憶装置103に記憶されたコーパスデータ内の文章から、単語を抽出する。そして、取得部401は、コーパスデータに基づいて、抽出した単語の分散表現を取得する。
分散表現とは、単語を複数次元(例えば、100〜300次元)の実数ベクトルで表現する技術である。文章内の単語の意味は、周辺の単語(文脈語)から定まるとする分布仮説というものがある。分布仮説を前提とすると、単語を、各要素が各文脈語の出現確率を示すベクトルとして表現できる。文脈語となる単語は、膨大(1兆個以上)であるため、このベクトルのサイズも膨大(1兆以上の次元)となってしまい、PCのメモリ等に格納不可なサイズとなる。しかし、このベクトルの要素は、ほとんどが0である。そのため、このベクトルは、圧縮が可能(例えば、100〜300次元のサイズに圧縮)である。分散表現では、分布仮説を前提として、単語がこのように圧縮されたベクトルとして表現されることとなる。
(Functional configuration of information processing device)
FIG. 4 is a diagram illustrating an example of a functional configuration of the
The
The
The distributed expression is a technique for expressing a word with a real vector of a plurality of dimensions (for example, 100 to 300 dimensions). There is a distribution hypothesis that the meaning of a word in a sentence is determined from surrounding words (context words). Given the distribution hypothesis, a word can be represented as a vector where each element indicates the appearance probability of each context word. Since the number of context words is enormous (1 trillion or more), the size of this vector also becomes enormous (1 trillion or more dimensions), and cannot be stored in a PC memory or the like. However, most of the elements of this vector are zero. Therefore, this vector can be compressed (for example, compressed to a size of 100 to 300 dimensions). In the distributed expression, the word is expressed as a vector compressed in this way, on the premise of the distribution hypothesis.
分散表現で表された単語同士は、単語同士の意味が近い程、近いベクトルとなる。この性質により、取得部401により抽出された単語の分散表現が示すベクトルは、意味が近いものほど近いベクトルとなる。
また、分散表現で表された単語には、次のような性質もある。即ち、単語(1)と単語(2)との関係と、単語(3)と単語(4)との関係と、が類似する程、単語(1)と単語(2)との差を示すベクトルと、単語(3)と単語(4)との差を示すベクトルと、が近しいベクトルになるという性質である。図7で後述する処理では、情報処理装置100は、この性質を利用することで、正しくカテゴリが分類されていない単語を検出する。
The words expressed in the distributed representation become closer vectors as the meaning of the words is closer. Due to this property, the vector indicated by the distributed representation of the word extracted by the
In addition, the words expressed in the distributed expression also have the following properties. That is, a vector indicating the difference between the word (1) and the word (2) as the relationship between the word (1) and the word (2) and the relationship between the word (3) and the word (4) are similar. And the vector indicating the difference between the word (3) and the word (4) is a close vector. In the processing described later with reference to FIG. 7, the
学習部402は、補助記憶装置103に記憶されるカテゴリ辞書データに基づいて、取得部401により分散表現が取得された単語のカテゴリを決定する。この際、学習部402は、カテゴリ辞書データに登録されていない単語については、カテゴリを決定できないこととなる。そして、学習部402は、カテゴリを決定した単語の分散表現に基づいて、分散表現で表された単語のカテゴリの分類に利用されるカテゴリ分類モデルを学習する。
また、学習部402は、単語間の意味的関係の分類に利用される意味的関係分類モデルを学習する。単語間の意味的関係とは、一方の単語の意味と他方の単語の意味との間の関係である。単語間の意味的関係には、例えば、上位概念/下位概念関係(例えば、「国」と「日本」との関係)、類義関係(例えば、共に「国」の下位概念である「日本」と「米国」との関係)、包含関係(例えば、「車」と「タイヤ」とのように一方の中に他方が含まれる関係)等がある。
抽出部403は、特定の条件を満たす単語を、コーパスデータから抽出する。抽出部403は、コーパスデータから互いに類義する2つの単語を抽出したり、ある単語と意味的関係を有する単語を抽出したりする。
更新部404は、単語のカテゴリを更新する。
Based on the category dictionary data stored in the
The
The
The
(カテゴリ分類モデルの学習処理)
図5は、情報処理装置100の処理の一例を示すフローチャートである。図5を用いて、単語のカテゴリの分類に利用されるカテゴリ分類モデル等の学習処理の一例を説明する。
S501において、取得部401は、補助記憶装置103に記憶されたコーパスデータから、単語を抽出する。
S502において、取得部401は、補助記憶装置103に記憶されたカテゴリ辞書に基づいて、S501で抽出された単語のうち、カテゴリ辞書に登録されている単語のカテゴリを決定する。
S503において、取得部401は、補助記憶装置103に記憶されたコーパスデータに基づいて、S502でカテゴリが決定された全ての単語の分散表現を取得する。取得部401は、例えば、コーパスデータ内の文章データにおける単語とその単語の周辺の単語とに基づいて、教師なし学習(word2vec等)により単語の分散表現を取得する。
S504において、学習部402は、S503で取得された分散表現と、S502でカテゴリが決定された単語のカテゴリと、に基づいて、カテゴリ分類モデルを学習する。
学習部402は、例えば、S503で取得された分散表現と、S503で取得された分散表現それぞれに対応するカテゴリと、を教師データとして、単語の分散表現を入力として、その単語のカテゴリを出力する識別器を、カテゴリ分類モデルとして学習する。学習部402は、この教師データを、補助記憶装置103に記憶する。学習部402は、例えば、識別器として、単純ベイズやサポートベクタマシン(SVM)等を用いる。
本実施形態では、学習部402は、S504の処理で、S502でカテゴリが決定された全ての単語の分散表現と、対応するカテゴリと、を教師データとして、カテゴリ分類モデルを学習することとした。しかし、学習部402は、S502でカテゴリが決定された単語のうち、ランダムにサンプリングされた予め定められた数の単語の分散表現と、対応するカテゴリと、を教師データとして、カテゴリ分類モデルを学習することとしてもよい。
(Category classification model learning process)
FIG. 5 is a flowchart illustrating an example of processing of the
In step S <b> 501, the
In S <b> 502, the
In step S <b> 503, the
In S504, the
For example, the
In the present embodiment, the
以上、図5の処理により、情報処理装置100は、分散表現で表された単語のカテゴリの分類に利用されるカテゴリ分類モデルを学習した。これにより、情報処理装置100は、分散表現で表された単語のカテゴリの分類を可能とすることができる。情報処理装置100は、例えば、コーパスデータから抽出された単語の中から、カテゴリが未定のものを選択し、S503と同様の方法で選択した単語の分散表現を取得する。情報処理装置100は、図5の処理で学習した分類モデルに、取得した分散表現を入力することで、その単語のカテゴリを決定できる。
また、情報処理装置100は、カテゴリを決定した単語に基づいて、文章中の述語や単語に意味役割を付与することができる。情報処理装置100は、文章から述語と、その述語に係る文節と、を抽出する。そして、情報処理装置100は、抽出した文節に含まれる単語のカテゴリが未定である場合、その単語の分散表現を取得し、取得した分散表現を、学習した分類モデルに入力することで、その単語のカテゴリを決定する。そして、情報処理装置100は、例えば、抽出した述語と、抽出した文節と、その文節に含まれる単語のカテゴリと、に基づいて、図3の意味フレーム辞書から、抽出した述語や抽出した文節中の単語の意味役割・意味を決定することができる。
As described above, the
Further, the
(意味的関係分類モデルの学習処理)
図6は、情報処理装置100の処理の一例を示すフローチャートである。図6を用いて、単語同士の意味的関係の分類に利用される意味的関係分類モデル等の学習処理の一例を説明する。
S601において、学習部402は、意味的関係分類モデルの学習を実行するか否かを判定する。学習部402は、例えば、予め補助記憶装置103に記憶された意味的関係分類モデルの学習を実行するか否かを示す情報に基づいて、意味的関係分類モデルの学習を実行するか否かを判定する。学習部402は、例えば、補助記憶装置103に記憶された意味的関係分類モデルの学習を実行するか否かを示す情報が、実行することを示す情報である場合、意味的関係分類モデルの学習を実行すると判定する。また、学習部402は、例えば、補助記憶装置103に記憶された意味的関係分類モデルの学習を実行するか否かを示す情報が、実行しないことを示す情報である場合、意味的関係分類モデルの学習を実行しないと判定する。
CPU101は、例えば、入出力I/F105を介して接続された入力装置を介したユーザの操作に基づいて、補助記憶装置103に記憶された意味的関係分類モデルの学習を実行するか否かを示す情報を更新することができる。例えば、補助記憶装置103に予め学習された意味的関係分類モデルが記憶されている場合、ユーザは、意味的関係分類モデルの学習を要しないと考える場合がある。このような場合、ユーザは、補助記憶装置103に記憶された意味的関係分類モデルの学習を実行するか否かを示す情報の内容を、実行しないことを示すように更新するよう、入力装置を介して、情報処理装置100に指示することとなる。
(Semantic relationship classification model learning process)
FIG. 6 is a flowchart illustrating an example of processing of the
In step S601, the
For example, the
S602において、取得部401は、例えば、コーパスデータ内の文章データにおける単語とその単語の周辺の単語とに基づいて、教師なし学習(word2vec等)により、コーパスデータ内の単語の分散表現を取得する。
S603において、学習部402は、意味的関係辞書(例えば、WordNet等)から、2つの単語とその単語同士の意味的関係との組を抽出する。
S604において、学習部402は、S602で取得された分散表現から、S603で抽出された全ての組に含まれる2つの単語の分散表現を取得する。そして、学習部402は、取得した2つの単語の分散表現と、S603で抽出された組に含まれる意味的関係と、の組を教師データとして、2つの単語を入力として意味的関係を出力する識別器を、意味的関係分類モデルとして学習する。学習部402は、例えば、識別器として、サポートベクタマシン(SVM)等を用いる。
以上、図6の処理により、情報処理装置100は、分散表現で表された2つの単語の意味的関係の分類に利用される意味的関係分類モデルを学習した。これにより、情報処理装置100は、分散表現で表された2つの単語の意味的関係の分類を可能とすることができる。情報処理装置100は、例えば、コーパスデータから抽出された2つの単語の分散表現を、図6の処理で学習した意味的関係分類モデルに入力することで、その単語同士の意味的関係を取得できる。
本実施形態では、学習部402は、S604の処理で、S603で抽出された全ての組に含まれる2つの単語の分散表現と、対応する関係性と、を教師データとして、意味的関係分類モデルを学習することとした。しかし、学習部402は、S604の処理で、S603で抽出された組のうち、ランダムにサンプリングされた予め定められた数の組に含まれる2つの単語の分散表現と、対応する関係性と、を教師データとして、意味的関係分類モデルを学習することとしてもよい。
In S <b> 602, the
In S603, the
In S604, the
As described above, the
In the present embodiment, the
(カテゴリの不適切な単語の特定処理)
教師データに含まれる単語に対応するカテゴリが不適切な単語が存在する場合や教師データに含まれる単語の数が十分でない場合、情報処理装置100は、図5の処理で学習したカテゴリ分類モデルを用いて、適切に、分散表現で表された単語のカテゴリの分類を行うことができない。
このような場合、カテゴリ分類モデルを用いてカテゴリが分類された単語のうち、カテゴリの分類結果が不適切である単語のカテゴリを更新し、カテゴリが更新された単語に基づいて、再度、カテゴリ分類モデルを学習することで、カテゴリ分類モデルの分類精度を向上させることができる。例えば、教師データに含まれる単語のカテゴリが更新された場合、再度、教師データに基づいて、カテゴリ分類モデルを学習することで、カテゴリ分類モデルの分類精度を向上させることができる。また、例えば、教師データに含まれない単語のカテゴリが更新された場合、教師データにその単語を加えたものを新たな教師データとして、その教師データに基づいて、カテゴリ分類モデルを学習することで、カテゴリ分類モデルの分類精度を向上させることができる。
また、教師データにカテゴリの分類結果が不適切である単語が含まれるような場合、教師データから、これらの単語を除いて、再度、カテゴリ分類モデルを学習することで、カテゴリ分類モデルの分類精度の向上が期待できる。
このような処理を行い、単語のカテゴリ分類の精度向上を実現するためには、カテゴリが不適切である可能性のある単語を特定する必要がある。
そこで、単語のカテゴリ分類の精度向上を実現するために、カテゴリが不適切である可能性のある単語を特定したいという要望があった。
(Identification of inappropriate words in categories)
When there is a word having an inappropriate category corresponding to the word included in the teacher data or when the number of words included in the teacher data is not sufficient, the
In such a case, among the words whose categories are classified using the category classification model, the category of the word whose category classification result is inappropriate is updated, and the category classification is performed again based on the words whose category is updated. By learning the model, the classification accuracy of the category classification model can be improved. For example, when the category of the word included in the teacher data is updated, the classification accuracy of the category classification model can be improved by learning the category classification model again based on the teacher data. Further, for example, when a category of a word not included in the teacher data is updated, a category classification model is learned based on the teacher data by using the teacher data plus the word as new teacher data. The classification accuracy of the category classification model can be improved.
Also, if the teacher data contains words with inappropriate category classification results, remove these words from the teacher data and learn the category classification model again. Improvement can be expected.
In order to perform such processing and improve the accuracy of word category classification, it is necessary to identify a word that may have an inappropriate category.
Therefore, in order to improve the accuracy of word category classification, there has been a demand to specify a word whose category may be inappropriate.
単語の分散表現には、2つの単語の関係と、別の2つの単語の関係と、が類似する程、分散表現の意味空間上でこれら2つの関係を示すベクトルは類似するという性質がある。例えば、「日本」という単語と「野球」という単語との関係が、「米国」という単語と「ホッケー」という単語との関係に類似するなら、分散表現の意味空間上における「日本」という単語と「野球」という単語との関係を示すベクトルと、分散表現の意味空間上における「米国」という単語と「ホッケー」という単語との関係を示すベクトルと、が類似することとなる。
分散表現の意味空間とは、空間内の各座標が、単語の分散表現が示すベクトルを表現する空間である。各座標が示すベクトルは、意味空間の原点を始点として、その座標を終点とするベクトルである。分散表現の意味空間の次元数は、単語の分散表現が示すベクトルと同じ次元である。例えば、分散表現の意味空間の次元数が2とすると、分散表現の意味空間上における座標(x、y)は、ベクトル(x、y)を示すこととなる。分散表現の意味空間上における2つの単語の関係を示すベクトルとは、単語同士がどのような関係であるかを示すベクトルであり、例えば、一方の単語が示すベクトルと、他方の単語が示すベクトルと、の差を示すベクトルである。
The distributed representation of a word has a property that, as the relationship between two words and the relationship between two other words are similar, the vectors indicating these two relationships in the semantic space of the distributed representation are similar. For example, if the relationship between the word “Japan” and the word “baseball” is similar to the relationship between the word “US” and the word “hockey”, the word “Japan” in the semantic space of the distributed expression The vector indicating the relationship with the word “baseball” is similar to the vector indicating the relationship between the word “US” and the word “hockey” in the distributed expression semantic space.
The meaning space of the distributed expression is a space in which each coordinate in the space represents a vector indicated by the distributed expression of the word. The vector indicated by each coordinate is a vector having the origin of the semantic space as the start point and the coordinate as the end point. The number of dimensions in the semantic space of the distributed representation is the same as the vector indicated by the distributed representation of the word. For example, if the number of dimensions in the semantic space of the distributed representation is 2, the coordinates (x, y) on the semantic space of the distributed representation indicate a vector (x, y). The vector indicating the relationship between two words in the semantic space of the distributed representation is a vector indicating what relationship the words are, for example, a vector indicated by one word and a vector indicated by the other word And a vector indicating the difference between.
この性質から、以下のようなことが仮定できる。例えば、互いに類義する単語(X)と単語(Y)とがあるとする。更に、単語(X)に関係性を有する単語(A)と、単語(X)と単語(A)との間の関係性と同様の関係性を単語(Y)に有する単語(B)とがあるとする。また、分散表現の意味空間上における単語(B)と単語(Y)との関係を示すベクトルと、分散表現の意味空間上における単語(A)と単語(X)との関係を示すベクトルと、が類似するとする。この場合、単語(A)と単語(B)とは、共に類義する単語と同様な関係を有する単語であり、同じカテゴリに属することが仮定できる。
本実施形態では、情報処理装置100は、図5の処理で学習したカテゴリ分類モデルを利用して、補助記憶装置103に記憶されたコーパスデータに含まれる単語について、カテゴリを分類する。そして、情報処理装置100は、図7で後述する処理で、この分散表現の性質に基づく仮定を利用して、カテゴリを分類したコーパスデータに含まれる単語から、カテゴリが不適切な可能性のある単語を特定する。そして、情報処理装置100は、決定したカテゴリが不適切な可能性のある単語について、カテゴリを更新し、カテゴリを更新した単語を教師データとして利用して、再度、カテゴリ分類モデルを学習する。
From this property, the following can be assumed. For example, it is assumed that there are a word (X) and a word (Y) that are similar to each other. Furthermore, a word (A) having a relationship with the word (X) and a word (B) having a relationship similar to the relationship between the word (X) and the word (A) in the word (Y). Suppose there is. A vector indicating the relationship between the word (B) and the word (Y) on the semantic space of the distributed representation, a vector indicating the relationship between the word (A) and the word (X) on the semantic space of the distributed representation, Are similar. In this case, it can be assumed that the word (A) and the word (B) are words having the same relationship as the words similar to each other and belong to the same category.
In the present embodiment, the
図7は、情報処理装置100の処理の一例を示すフローチャートである。図7を用いて、カテゴリが不適切な可能性のある単語を決定し、決定した単語のカテゴリを更新し、再度、カテゴリ分類モデルを学習する処理の一例について説明する。図7の処理における単語(X)は、第1の単語の一例である。図7の処理における単語(Y)は、第3の単語の一例である。図7の処理における単語(A)は、第2の単語の一例である。図7の処理における単語(B)は、第4の単語の一例である。
S701において、抽出部403は、補助記憶装置103に記憶されたコーパスデータから互いに類義する2つの単語を抽出する。抽出部403は、例えば、予め定められた単語について、同一の意味的関係を有する2つの単語を抽出することで、互いに類義する2つの単語を抽出する。抽出部403は、例えば、S604で学習された意味的関係分類モデルを用いて、予め定められた単語と意味的関係を有する単語を抽出する。抽出部403は、例えば、S604で学習された意味的関係分類モデルに、予め定められた単語と他の単語との2つの単語を入力し、その2つの単語の意味的関係を取得する。そして、抽出部403は、取得した意味的関係が、類義関係を示す関係である場合、その2つの単語を、互いに類義する2つの単語として抽出する。また、抽出部403は、例えば、予め学習された意味的関係分類モデルを用いて、予め定められた単語と意味的関係を有する単語を抽出することとしてもよい。本実施形態では、抽出部403は、予め定められた単語(「国」)と、同一の意味的関係(上位概念/下位概念関係)を有する単語(X)(「日本」)と単語(Y)(「米国」)との2つの単語を抽出する。
FIG. 7 is a flowchart illustrating an example of processing of the
In step S <b> 701, the
S702において、抽出部403は、コーパスデータから、S701で抽出された単語(X)と関係性を有する単語(A)を抽出する。本実施形態では、抽出部403は、コーパスデータから、単語(X)(「日本」)と共起関係を有する単語(A)(「野球」)を抽出する。抽出部403は、例えば、コーパスデータに含まれる文章において、単語(X)の周辺に、どのような単語がどのような確率で出現するかを特定する。例えば、抽出部403は、コーパスデータに含まれる文章において、単語(X)の周辺に出現した各単語について、出現回数を集計し、集計した出現回数を、コーパスデータ内での単語(X)の出現回数で割ることで、各単語の出現確率を取得する。そして、抽出部403は、特定した確率が予め定められた閾値以上である単語を、単語(X)と共起関係にある単語(A)として抽出する。
また、抽出部403は、例えば、S604で学習された意味的関係分類モデルを用いて、単語(X)と予め定められた意味的関係を有する単語を抽出してもよい。抽出部403は、例えば、S604で学習された意味的関係分類モデルに、単語(X)と他の単語とを入力し、出力された意味的関係が、予め定められた意味的関係である場合、単語(X)と共に意味的関係分類モデルに入力された単語を、単語(X)と予め定められた意味的関係を有する単語として抽出する。意味的関係の例としては、包含関係や類義関係がある。また、抽出部403は、例えば、補助記憶装置103に記憶された予め学習された意味的関係分類モデルを用いて、単語(X)と意味的関係を有する単語を抽出してもよい。また、抽出部403は、例えば、補助記憶装置103に予め記憶された意味的関係辞書を用いて、単語(X)と意味的関係を有する単語を抽出してもよい。
また、抽出部403は、単語(X)の分散表現(ベクトル)と類似するベクトルを分散表現とする単語を、単語(X)と類義関係を有する単語(A)として抽出してもよい。
以下では、S701で抽出された単語(X)とS702で抽出された単語(A)との関係性を、拡張共起関係とする。拡張共起関係は、例えば、共起関係や意味的関係、分散表現(ベクトル)の類似関係等の関係性である。
S702の処理は、第2の単語を特定する第1の特定処理の一例である。
In S702, the
Further, the
Further, the
Hereinafter, the relationship between the word (X) extracted in S701 and the word (A) extracted in S702 is referred to as an expanded co-occurrence relationship. The expanded co-occurrence relationship is, for example, a relationship such as a co-occurrence relationship, a semantic relationship, or a similarity relationship of distributed expressions (vectors).
The process of S702 is an example of a first specifying process that specifies the second word.
S703において、抽出部403は、コーパスデータから、S701で抽出された単語(Y)との間に、単語(X)と単語(A)との間の拡張共起関係と同様の関係性を有し、分散表現の意味空間上における単語(Y)との関係が、分散表現の意味空間上における単語(X)と単語(A)との関係と類似する単語(B)を抽出する。本実施形態では、抽出部403は、分散表現の意味空間上における単語(X)と単語(A)との関係を示すベクトル(例えば、単語(A)−単語(X)が示すベクトル等)と、単語(Y)と単語(B)との関係を示すベクトル(例えば、単語(B)−単語(Y)が示すベクトル等)と、が類似する場合、分散表現の意味空間上における単語(X)と単語(A)との関係と、単語(Y)と単語(B)との関係と、が類似するとする。
そこで、抽出部403は、分散表現の意味空間上における単語(X)と単語(A)との関係を示すベクトル(例えば、単語(A)−単語(X)が示すベクトル等)と、単語(Y)と単語(B)との関係を示すベクトル(例えば、単語(B)−単語(Y)が示すベクトル等)と、が類似するように、単語(B)を抽出する。単語(A)−単語(X)のベクトルは、分散表現の意味空間上における第1の単語と第2の単語との関係を示す第2の関係ベクトルの一例である。
In S703, the
Therefore, the
抽出部403は、例えば、以下のようにして、単語(B)を抽出する。即ち、抽出部403は、例えば、コーパスデータから、単語(Y)と共起関係を有する単語(B)を抽出する。抽出部403は、例えば、コーパスデータに含まれる文章において、単語(Y)の周辺にどのような単語がどのような確率で出現するかを特定する。例えば、抽出部403は、コーパスデータに含まれる文章において、単語(Y)の周辺に出現した各単語について、出現回数を集計し、集計した出現回数を、コーパスデータ内での単語(Y)の出現回数で割ることで、各単語の出現確率を取得する。そして、抽出部403は、特定した確率が予め定められた閾値以上である単語を、単語(Y)と共起関係にある単語(B)として抽出する。
また、抽出部403は、S604で学習された意味的関係分類モデルを用いて、単語(Y)と、単語(X)と単語(A)との間の関係性と同様の関係性を有する単語を、単語(B)の候補として抽出してもよい。また、抽出部403は、例えば、補助記憶装置103に記憶された予め学習された意味的関係分類モデルを用いて、単語(Y)と意味的関係を有する単語を抽出してもよい。また、抽出部403は、例えば、補助記憶装置103に予め記憶された意味的関係辞書を用いて、単語(Y)と意味的関係を有する単語を抽出してもよい。また、抽出部403は、単語(Y)の分散表現(ベクトル)と類似するベクトルを分散表現とする単語を、単語(Y)と類義関係を有する単語(B)として抽出してもよい。
そして、抽出部403は、単語(B)の候補から、分散表現の意味空間上における単語(Y)との関係が、分散表現の意味空間上における単語(X)と単語(A)との関係と類似する単語を、単語(B)として特定する。抽出部403は、例えば、分散表現の意味空間上における単語(A)が示すベクトルと単語(X)が示すベクトルとの差を示すベクトルを、分散表現の意味空間上における単語(X)と単語(A)との関係を示すベクトルとして取得する。そして、抽出部403は、取得したベクトルと、単語(Y)が示すベクトルと、を足し合わせたベクトルを取得する。このベクトルは、分散表現の意味空間上における単語(Y)との関係が、分散表現の意味空間上における単語(X)と単語(A)との関係と同一である単語を示すベクトルとなる。
For example, the
Further, the
Then, the
抽出部403は、取得したこのベクトルと、単語(B)の候補それぞれが示すベクトルと、の類似度を取得する。ベクトル同士の類似度は、そのベクトル同士の類似の程度を示す指標であり、例えば、コサイン類似度、内積、そのベクトル同士の差を示すベクトルの絶対値等がある。本実施形態では、抽出部403は、このベクトルと、単語(B)の候補それぞれが示すベクトルと、のコサイン類似度を取得する。
そして、抽出部403は、取得したコサイン類似度の中から、予め定められた閾値以上のものを特定する。抽出部403は、予め定められた閾値以上のものが複数ある場合、最大のものを特定する。抽出部403は、単語(B)の候補のうち、特定した類似度に対応する単語を、単語(B)として特定する。これにより、抽出部403は、単語(X)と単語(A)との関係を示すベクトルと、単語(Y)と単語(B)との関係を示すベクトルと、が類似するように(即ち、単語(X)と単語(A)との関係と、単語(Y)と単語(B)との関係と、が類似するように)、単語(B)を特定できる。
本実施形態では、単語(B)として特定された単語は、「ホッケー」であるとする。
The
Then, the
In the present embodiment, it is assumed that the word specified as the word (B) is “hockey”.
図8は、分散表現の意味空間上における単語(X)、単語(Y)、単語(A)、単語(B)の関係の一例を示す図である。単語(X)と単語(A)との関係を示すベクトル(単語(A)−単語(X))と、単語(Y)と単語(B)との関係を示すベクトル(単語(B)−単語(Y))と、が類似していることが分かる。図8から分かるように、単語(X)、単語(Y)、単語(A)、単語(B)は、分散表現の意味空間上で、近似的な平行四辺形の形状を為す。しかし、分散表現の意味空間上で、近似的な平行四辺形の形状を為す4つの単語が、常に、単語(X)、単語(Y)、単語(A)、単語(B)のような関係(単語(X)と単語(Y)とが類義し、単語(X)と単語(A)との間に関係性(拡張共起関係)が有り、単語(Y)と単語(B)との間にも同様の関係性が有る関係)が成り立つとは限らない。
図9は、単語(X)、単語(Y)、単語(A)、単語(B)それぞれの関係性の一例を示す図である。単語(X)と単語(Y)とは、互いに単語「国」の下位概念であり、互いに類義することが示されている。また、単語(A)、単語(B)は、それぞれ単語(X)、単語(Y)との間に共起関係を有することが示されている。
FIG. 8 is a diagram illustrating an example of the relationship between the word (X), the word (Y), the word (A), and the word (B) in the semantic space of the distributed representation. A vector indicating the relationship between the word (X) and the word (A) (word (A) -word (X)) and a vector indicating the relationship between the word (Y) and the word (B) (word (B) -word (Y)) are similar to each other. As can be seen from FIG. 8, the word (X), the word (Y), the word (A), and the word (B) have an approximate parallelogram shape on the distributed expression semantic space. However, in the distributed representation semantic space, the four words having an approximate parallelogram shape are always in a relationship such as word (X), word (Y), word (A), and word (B). (Word (X) and word (Y) are similar, and there is a relationship (extended co-occurrence relationship) between word (X) and word (A). Word (Y) and word (B) It is not always true that there is a similar relationship between the two.
FIG. 9 is a diagram illustrating an example of the relationship between the word (X), the word (Y), the word (A), and the word (B). The word (X) and the word (Y) are subordinate concepts of the word “country”, and are shown to be similar to each other. Further, it is shown that the word (A) and the word (B) have a co-occurrence relationship with the word (X) and the word (Y), respectively.
S703の処理は、第4の単語を特定する第2の特定処理の一例である。
S704において、抽出部403は、S702で抽出された単語(A)とS703で抽出された単語(B)とのカテゴリが異なるか否かを判定する。
抽出部403は、S702で抽出された単語(A)とS703で抽出された単語(B)とのカテゴリが異なると判定した場合、単語(A)と単語(B)とについて、カテゴリが不適切である可能性があることを決定し、S705の処理に進む。抽出部403は、S702で抽出された単語(A)とS703で抽出された単語(B)とのカテゴリが同じであると判定した場合、単語(A)と単語(B)とのカテゴリが適切であるとして、図7の処理を終了する。S704の処理は、第2の単語のカテゴリが第4の単語のカテゴリと異なるか否かに基づいて、第2の単語と第4の単語とについて、カテゴリが不適切な可能性があるか否かを決定する決定処理の一例である。
The process of S703 is an example of a second specifying process that specifies the fourth word.
In S704, the
If the
S705において、更新部404は、S704で、カテゴリが不適切である可能性があることが決定された単語(A)と単語(B)とについて、何れか一方又は双方のカテゴリを更新する。
更新部404は、例えば、単語(A)と単語(B)とのうち、何れか一方のカテゴリが確定されている場合、他方のカテゴリをその一方のカテゴリと同じカテゴリに更新する。例えば、単語(A)と単語(B)とのうちの一方が、予め補助記憶装置103に記憶された単語のカテゴリを示す辞書データに含まれており、カテゴリがその辞書データが示すカテゴリと一致するとする。その場合、更新部404は、その一方の単語をカテゴリが確定された単語として決定し、他方の単語のカテゴリをその一方の単語のカテゴリと同じカテゴリに更新する。
In step S <b> 705, the
For example, when any one of the word (A) and the word (B) is determined, the
また、更新部404は、以下のような処理を行うこととしてもよい。即ち、更新部404は、入出力I/F105を介して接続された出力装置に、単語(A)と単語(B)とについて、カテゴリが不適切である可能性があることを示す情報を出力する。更新部404は、例えば、入出力I/F105を介して接続された出力装置であるディスプレイに、単語(A)と単語(B)とについて、カテゴリが不適切である可能性があることを示す情報を表示することで出力する。これにより、更新部404は、ユーザに対して、単語(A)と単語(B)とについて、カテゴリが不適切である可能性があることを提示できる。更に、更新部404は、例えば、ディスプレイに、単語(A)と単語(B)とについてのカテゴリの指定に利用される指定画面を表示することとしてもよい。そして、更新部404は、入出力I/F105を介して接続された入力装置を介したユーザによる指定画面への操作に基づいて、単語(A)と単語(B)とのうち、何れか一方又は双方についてのカテゴリの指定を受付けてもよい。更新部404は、単語(A)と単語(B)とのうち、何れか一方又は双方について、受付けた指定が示すカテゴリに更新する。
指定画面は、例えば、単語(A)と単語(B)とに対応するカテゴリの入力欄を含む。この場合、更新部404は、指定画面内のカテゴリの入力欄に入力された情報を取得することで、カテゴリの指定を受付けることができる。
Further, the
The designation screen includes, for example, a category input field corresponding to the word (A) and the word (B). In this case, the
S706において、学習部402は、S705でカテゴリが更新された単語に基づいて、再度、カテゴリ分類モデルを学習する。S705でカテゴリが更新された単語が補助記憶装置103に記憶された教師データに含まれない場合、学習部402は、教師データと、S705でカテゴリが更新された単語と、に基づいて、カテゴリ分類モデルを学習する。
また、S705でカテゴリが更新された単語が補助記憶装置103に記憶された教師データに含まれる場合、学習部402は、以下のような処理を行う。即ち、学習部402は、教師データに含まれるS705でカテゴリが更新された単語について、教師データ内の対応するカテゴリを更新し、更新した教師データに基づいて、カテゴリ分類モデルを学習する。
また、抽出部403は、単語(X)と単語(Y)とのカテゴリが異なるか否かを判定することもできる。抽出部403により単語(X)と単語(Y)とのカテゴリが異なると判定された場合、更新部404は、S705と同様の方法で、カテゴリが不適切である可能性がある単語(X)と単語(Y)とについて、何れか一方又は双方のカテゴリを更新する。そして、学習部402は、カテゴリが更新された単語に基づいて、カテゴリ分類モデルを学習することとなる。
In S706, the
In addition, when the word whose category is updated in S705 is included in the teacher data stored in the
The
(効果)
以上、本実施形態では、情報処理装置100は、カテゴリが既知である単語で構成される教師データに基づいて、分散表現の単語についてのカテゴリの分類に利用されるカテゴリ分類モデルを学習した。これにより、情報処理装置100は、分散表現で表された単語のカテゴリの分類を可能とすることで、単語のカテゴリ分類の精度向上の実現を支援することができる。
また、情報処理装置100は、カテゴリが分類された単語の中から、カテゴリが不適切な可能性のある単語を決定した。これにより、情報処理装置100は、単語のカテゴリ分類の精度向上の実現を支援することができる。例えば、類義する単語同士が同じカテゴリであると仮定をおき、単に類義語辞書を用いることで、以下のような処理を行うことが可能である。即ち、類義する2つの単語(例えば、本実施形態における単語(X)、単語(Y))を抽出し、抽出した単語同士のカテゴリが一致しない場合、これらの単語をカテゴリが不適切な可能性がある単語として決定する処理である。しかし、この方法では、2つの単語が直接的な類義関係を有さないと、これらの単語が、カテゴリが不適切な可能性があるか否かを決定できない。しかし、本実施形態の処理により、情報処理装置100は、直接的な類義関係を有する2つの単語それぞれと同一の関係性(拡張共起関係)を有する2つの単語について、この2つの単語が直接的な類義関係を有さなくとも、カテゴリが不適切な可能性があるか否かを決定できる。
(effect)
As described above, in the present embodiment, the
In addition, the
また、情報処理装置100は、決定したカテゴリが不適切な可能性のある単語のカテゴリを更新し、カテゴリを更新した単語に基づいて、再度、カテゴリ分類モデルを学習した。これにより、情報処理装置100は、カテゴリ分類モデルによる分類の精度を向上させることができる。
例えば、特定の分野(業界、業務)の専門用語や社内用語等においては、特殊な単語が用いられたり、単語が特殊な意味を持ったりする場合がある。このような場合、例えば、単語が辞書に収録されていなかったり、単語の意味が辞書に記載のある意味と異なったりする。例えば、「ホスト」という単語は、「(客をもてなす)主人」の意味を有し、「人」というカテゴリに属する。しかし、IT分野における「ホスト」という単語は、「(別のマシンにサービスを提供する)ホストコンピュータ」という意味を有し、「モノ」というカテゴリに属する。
このような場合、一般用語の単語とカテゴリとを含む教師データに基づき学習されたカテゴリ分類モデルでは、適切に単語のカテゴリを分類できない可能性がある。このような場合でも、情報処理装置100は、カテゴリが不適切な可能性のある単語を決定し、決定した単語のカテゴリを更新し、カテゴリを更新した単語に基づいて、再度、カテゴリ分類モデルを学習することで、カテゴリ分類モデルによる特定の分野に係る単語の分類の精度を向上させることができる。
このように、情報処理装置100は、カテゴリ分類モデルによる分類精度の向上のため、新たな辞書データ等を用いる必要がなく、新たな辞書データ等を用意するコストを削減できる。また、情報処理装置100は、単語の意味内容が時間と共に変化し、新たな専門用語が生まれたり、従来と異なる意味で用いられたりすることとなった場合でも、こうした状況変化に適応しながら、カテゴリ分類モデルを追加で学習することができる。
In addition, the
For example, a special word may be used or a word may have a special meaning in technical terms or company terms in a specific field (industry or business). In such a case, for example, the word is not recorded in the dictionary, or the meaning of the word is different from the meaning described in the dictionary. For example, the word “host” has the meaning of “master (who has customers)” and belongs to the category “people”. However, the word “host” in the IT field means “host computer (providing service to another machine)” and belongs to the category “thing”.
In such a case, there is a possibility that the category of the word cannot be properly classified by the category classification model learned based on the teacher data including the word and the category of the general term. Even in such a case, the
In this way, the
(変形例)
本実施形態では、情報処理装置100は、単体の情報処理装置であるとした。しかし、情報処理装置100は、ネットワーク(LANやインターネット)を介して相互に通信可能に接続された複数の情報処理装置を含むシステムとして構成されることとしてもよい。その場合、情報処理装置100に含まれる複数の情報処理装置それぞれのCPUが、それぞれの情報処理装置の補助記憶装置に記憶されたプログラムに基づき処理を連携して実行することで、図4の機能及び図5、6、7のフローチャートの処理等が実現される。
本実施形態では、情報処理装置100は、図5の処理で学習したカテゴリ分類モデルを用いて分類されたコーパスデータ内の単語から、カテゴリが不適切な可能性のある単語を特定することとした。しかし、情報処理装置100は、予めカテゴリが設定された単語から、カテゴリが不適切な可能性のある単語を特定することとしてもよい。
(Modification)
In the present embodiment, the
In the present embodiment, the
本実施形態では、抽出部403は、S703で、分散表現の意味空間上における単語(Y)が示すベクトルに、単語(A)が示すベクトルを加え、単語(X)が示すベクトルを引いたベクトルと、類似するベクトルに対応する単語を、単語(B)を特定することとした。しかし、抽出部403は、S703で、分散表現の意味空間上における単語(A)が示すベクトルから単語(X)が示すベクトルを引いたベクトルと、単語(B)の候補夫々が示すベクトルから単語(Y)が示すベクトルを引いたベクトルと、の類似度に基づいて、単語(B)を特定することとしてもよい。単語(B)の候補が示すベクトルから単語(Y)が示すベクトルを引いたベクトルは、分散表現の意味空間上における第3の単語と候補単語との関係を示す第1の関係ベクトルの一例である。
抽出部403は、例えば、分散表現の意味空間上における単語(A)が示すベクトルから単語(X)が示すベクトルを引いたベクトルと、単語(B)の候補夫々が示すベクトルから単語(Y)が示すベクトルを引いたベクトルと、の類似度を取得する。そして、抽出部403は、取得した類似度が予め定められた閾値以上となる単語(B)の候補を、単語(B)として特定してもよい。また、抽出部403は、取得した類似度が予め定められた閾値以上となる単語(B)の候補が複数ある場合、類似度が最大のものを、単語(B)として特定してもよい。
In this embodiment, the
For example, the
本実施形態では、情報処理装置100は、S701〜S704の処理を行うことで、カテゴリが不適切な可能性のある単語を決定した。上位概念、下位概念の単語同士は、同じカテゴリに属すると仮定できる。そこで、情報処理装置100は、S701〜S704の処理に加えて、以下の処理を行うことで、カテゴリが不適切な可能性のある単語を決定してもよい。
即ち、情報処理装置100は、ある単語について、意味的分類モデルに基づいて、その単語の上位概念又は下位概念の単語を特定する。そして、情報処理装置100は、特定した単語と元の単語とのカテゴリを比較し、同じでなければ、これらの単語は、カテゴリが不適切である可能性のある単語として決定してもよい。そして、情報処理装置100は、カテゴリが不適切である可能性のある単語として決定した単語について、S705と同様の処理でカテゴリを更新し、カテゴリを更新した単語に基づいて、カテゴリ分類モデルを学習する。これにより、情報処理装置100は、更に、カテゴリ分類モデルによる分類精度を向上させることができる。
In the present embodiment, the
That is, the
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した情報処理装置100の機能構成の一部又は全てをハードウェアとして情報処理装置100に実装してもよい。
As mentioned above, although preferable embodiment of this invention was explained in full detail, this invention is not limited to the specific embodiment which concerns.
For example, part or all of the functional configuration of the
100 情報処理装置
101 CPU
402 学習部
100
402 Learning Department
Claims (14)
単語に対応するカテゴリの情報を含むカテゴリ辞書に基づいて、前記抽出手段により抽出された単語のうち、前記カテゴリ辞書に登録されている単語のカテゴリを決定する決定手段と、
前記複数の文章に基づいて、前記決定手段によりカテゴリが決定された単語の分散表現を取得する取得手段と、
前記取得手段により取得された分散表現と、前記決定手段により決定されたカテゴリと、に基づいて、分散表現で表された単語のカテゴリを分類する分類モデルを学習する学習手段と、
を有する情報処理装置。 Extraction means for extracting words from a plurality of sentences;
A determining unit for determining a category of a word registered in the category dictionary among the words extracted by the extracting unit based on a category dictionary including information on a category corresponding to the word;
Obtaining means for obtaining a distributed representation of a word whose category is determined by the determining means based on the plurality of sentences;
Learning means for learning a classification model for classifying a category of words represented by the distributed expression based on the distributed expression acquired by the acquiring means and the category determined by the determining means;
An information processing apparatus.
意味フレーム辞書を用いて、前記述語と、前記文節と、前記分類手段により分類された前記単語のカテゴリと、に基づいて、前記述語に意味を付与し、前記文節に意味役割を付与する付与手段と、
を更に有する請求項1記載の情報処理装置。 A classification means for classifying a category of words included in a clause related to an input sentence predicate;
Using a semantic frame dictionary, assign meaning to the previous description word based on the previous description word, the phrase, and the category of the word classified by the classification means, and assign a semantic role to the phrase Granting means;
The information processing apparatus according to claim 1, further comprising:
前記第1の単語と類義する第3の単語と前記関係性を有し、かつ、分散表現の意味空間上における前記第3の単語との関係が、前記意味空間上における前記第1の単語と前記第1の特定手段により特定された前記第2の単語との関係に類似する第4の単語を特定する第2の特定手段と、
前記第1の特定手段により特定された前記第2の単語のカテゴリが前記第2の特定手段により特定された前記第4の単語のカテゴリと異なるか否かに基づいて、前記第2の単語と前記第4の単語とについて、カテゴリが不適切な可能性があるか否かを決定する決定手段と、
前記決定手段により前記第2の単語と前記第4の単語とについて、カテゴリが不適切な可能性があることが決定された場合、前記第2の単語と前記第4の単語との一方又は双方について、カテゴリを更新する更新手段と、
を更に有し、
前記学習手段は、前記更新手段によりカテゴリが更新された単語に基づいて、再度、前記分類モデルの学習を行う請求項1又は2記載の情報処理装置。 First specifying means for specifying a second word having a relationship with the first word;
The first word in the semantic space has the relationship with the third word similar to the first word and the relationship with the third word in the semantic space of the distributed expression And second specifying means for specifying a fourth word similar to the relationship between the first word and the second word specified by the first specifying means;
Based on whether the category of the second word specified by the first specifying means is different from the category of the fourth word specified by the second specifying means, the second word and Determining means for determining whether the category may be inappropriate for the fourth word;
When it is determined by the determining means that there is a possibility that the category is inappropriate for the second word and the fourth word, one or both of the second word and the fourth word Updating means for updating the category,
Further comprising
The information processing apparatus according to claim 1, wherein the learning unit learns the classification model again based on the word whose category has been updated by the updating unit.
前記第2の特定手段は、前記第3の単語と前記関係性を有する単語を候補単語として、前記意味空間上における前記第3の単語と前記候補単語との関係を示す第1の関係ベクトルが、前記意味空間上における前記第1の単語と前記第2の単語との関係を示す第2の関係ベクトルと類似する場合、前記候補単語を、前記第4の単語として特定する請求項3記載の情報処理装置。 The semantic space is a space in which each coordinate on the semantic space indicates a vector indicated by a distributed representation of a word,
The second specifying means uses a word having the relationship with the third word as a candidate word, and a first relationship vector indicating a relationship between the third word and the candidate word in the semantic space is The candidate word is specified as the fourth word when similar to a second relation vector indicating a relation between the first word and the second word in the semantic space. Information processing device.
前記第2の特定手段は、前記第3の単語と前記関係性を有する単語を候補単語として、前記意味空間上における前記候補単語が示すベクトルと、前記第3の単語が示すベクトルから前記第1の単語が示すベクトルを引き前記第1の特定手段により特定された第2の単語が示すベクトルを加えたベクトルと、の類似度が予め定められた閾値以上となる場合、前記候補単語を、前記第4の単語として特定する請求項3記載の情報処理装置。 The semantic space is a space in which each coordinate on the semantic space indicates a vector indicated by a distributed representation of a word,
The second specifying means uses the word having the relationship with the third word as a candidate word, the vector indicated by the candidate word on the semantic space, and the vector indicated by the third word from the first word If the similarity between the vector indicated by the word and the vector added by the vector indicated by the second word specified by the first specifying means is equal to or greater than a predetermined threshold, the candidate word is The information processing apparatus according to claim 3, which is specified as the fourth word.
前記更新手段は、前記第2の単語のカテゴリが前記第4の単語のカテゴリと異なる場合、前記受付手段により受付けられた指定に基づいて、前記第2の単語と前記第4の単語との一方又は双方について、カテゴリを更新する請求項3乃至7何れか1項記載の情報処理装置。 When the category of the second word specified by the first specifying means is different from the category of the fourth word specified by the second specifying means, the second word and the fourth word And further comprising an accepting means for accepting designation of one or both categories of words,
When the category of the second word is different from the category of the fourth word, the updating unit determines one of the second word and the fourth word based on the designation received by the receiving unit. The information processing apparatus according to claim 3, wherein the category is updated for both.
前記第1の単語と類義する第3の単語と前記関係性を有し、かつ、分散表現の意味空間上における前記第3の単語との関係が、前記意味空間上における前記第1の単語と前記第1の特定手段により特定された前記第2の単語との関係に類似する第4の単語を特定する第2の特定手段と、
前記第1の特定手段により特定された前記第2の単語のカテゴリが前記第2の特定手段により特定された前記第4の単語のカテゴリと異なるか否かに基づいて、前記第2の単語と前記第4の単語とについて、カテゴリが不適切な可能性があるか否かを決定する決定手段と、
を有する情報処理装置。 First specifying means for specifying a second word having a relationship with the first word;
The first word in the semantic space has the relationship with the third word similar to the first word and the relationship with the third word in the semantic space of the distributed expression And second specifying means for specifying a fourth word similar to the relationship between the first word and the second word specified by the first specifying means;
Based on whether the category of the second word specified by the first specifying means is different from the category of the fourth word specified by the second specifying means, the second word and Determining means for determining whether the category may be inappropriate for the fourth word;
An information processing apparatus.
複数の文章から、単語を抽出する抽出ステップと、
単語に対応するカテゴリの情報を含むカテゴリ辞書に基づいて、前記抽出ステップで抽出された単語のうち、前記カテゴリ辞書に登録されている単語のカテゴリを決定する決定ステップと、
前記複数の文章に基づいて、前記決定ステップでカテゴリが決定された単語の分散表現を取得する取得ステップと、
前記取得ステップで取得された分散表現と、前記決定ステップで決定されたカテゴリと、に基づいて、分散表現で表された単語のカテゴリを分類する分類モデルを学習する学習ステップと、
を含む情報処理方法。 An information processing method executed by an information processing apparatus,
An extraction step of extracting words from a plurality of sentences;
A determination step for determining a category of a word registered in the category dictionary among the words extracted in the extraction step based on a category dictionary including category information corresponding to the word;
An acquisition step of acquiring a distributed representation of the word whose category is determined in the determination step based on the plurality of sentences;
A learning step of learning a classification model for classifying a category of words represented by a distributed expression based on the distributed expression acquired by the acquiring step and the category determined by the determining step;
An information processing method including:
第1の単語と関係性を有する第2の単語を特定する第1の特定ステップと、
前記第1の単語と類義する第3の単語と前記関係性を有し、かつ、分散表現の意味空間上における前記第3の単語との関係が、前記意味空間上における前記第1の単語と前記第1の特定ステップで特定された前記第2の単語との関係に類似する第4の単語を特定する第2の特定ステップと、
前記第1の特定ステップで特定された前記第2の単語のカテゴリが前記第2の特定ステップで特定された前記第4の単語のカテゴリと異なるか否かに基づいて、前記第2の単語と前記第4の単語とについて、カテゴリが不適切な可能性があるか否かを決定する決定ステップと、
を含む情報処理方法。 An information processing method executed by an information processing apparatus,
A first specifying step of specifying a second word having a relationship with the first word;
The first word in the semantic space has the relationship with the third word similar to the first word and the relationship with the third word in the semantic space of the distributed expression And a second specifying step of specifying a fourth word similar to the relationship between the first word and the second word specified in the first specifying step;
Based on whether the category of the second word specified in the first specifying step is different from the category of the fourth word specified in the second specifying step, the second word and A determining step for determining whether the category may be inappropriate for the fourth word;
An information processing method including:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017129309A JP2019012457A (en) | 2017-06-30 | 2017-06-30 | Information processing device, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017129309A JP2019012457A (en) | 2017-06-30 | 2017-06-30 | Information processing device, information processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019012457A true JP2019012457A (en) | 2019-01-24 |
Family
ID=65228105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017129309A Pending JP2019012457A (en) | 2017-06-30 | 2017-06-30 | Information processing device, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019012457A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020187430A (en) * | 2019-05-10 | 2020-11-19 | 株式会社日立製作所 | Dictionary producing method, dictionary producing device, and storage medium |
CN113094478A (en) * | 2021-06-10 | 2021-07-09 | 平安科技(深圳)有限公司 | Expression reply method, device, equipment and storage medium |
JP2021170255A (en) * | 2020-04-16 | 2021-10-28 | 株式会社日立製作所 | Label design support device, and label design support method |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007213336A (en) * | 2006-02-09 | 2007-08-23 | Mitsubishi Electric Corp | Dictionary creating device |
JP2010102521A (en) * | 2008-10-24 | 2010-05-06 | Nippon Telegr & Teleph Corp <Ntt> | Dictionary creation device, dictionary creation method, dictionary creation program and recording medium recorded with the same program |
JP2017059077A (en) * | 2015-09-18 | 2017-03-23 | ヤフー株式会社 | Information provision device, information provision method, and information provision program |
-
2017
- 2017-06-30 JP JP2017129309A patent/JP2019012457A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007213336A (en) * | 2006-02-09 | 2007-08-23 | Mitsubishi Electric Corp | Dictionary creating device |
JP2010102521A (en) * | 2008-10-24 | 2010-05-06 | Nippon Telegr & Teleph Corp <Ntt> | Dictionary creation device, dictionary creation method, dictionary creation program and recording medium recorded with the same program |
JP2017059077A (en) * | 2015-09-18 | 2017-03-23 | ヤフー株式会社 | Information provision device, information provision method, and information provision program |
Non-Patent Citations (3)
Title |
---|
城光 英彰 他2名: "同義語判定問題を用いた語義ベクトルの評価の検討", インタラクティブ情報アクセスと可視化マイニング 第10回研究会研究発表予稿集, JPN6021002447, 7 July 2015 (2015-07-07), JP, pages 21 - 25, ISSN: 0004433355 * |
川村 隆浩 他5名: "単語意味ベクトルを用いた大規模論文抄録データからの科学技術用語シソーラス拡充手法の検討", 一般社団法人人工知能学会 研究会 SWO:セマンティックウェブとオントロジー研究会 SIG−SWO−, JPN6021002448, 18 February 2016 (2016-02-18), JP, pages 1 - 6, ISSN: 0004433356 * |
海野 裕也: "新しい計算論が切り拓く認知科学の展開", 認知科学 VOL.24 NO.1, vol. 第24巻, JPN6020040045, 1 March 2017 (2017-03-01), JP, pages 16 - 22, ISSN: 0004433354 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020187430A (en) * | 2019-05-10 | 2020-11-19 | 株式会社日立製作所 | Dictionary producing method, dictionary producing device, and storage medium |
JP7145811B2 (en) | 2019-05-10 | 2022-10-03 | 株式会社日立製作所 | Dictionary creation method, dictionary creation device and storage medium |
JP2021170255A (en) * | 2020-04-16 | 2021-10-28 | 株式会社日立製作所 | Label design support device, and label design support method |
JP7425662B2 (en) | 2020-04-16 | 2024-01-31 | 株式会社日立製作所 | Label design support device and label design support method |
CN113094478A (en) * | 2021-06-10 | 2021-07-09 | 平安科技(深圳)有限公司 | Expression reply method, device, equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10698868B2 (en) | Identification of domain information for use in machine learning models | |
AU2019200437B2 (en) | A method to build an enterprise-specific knowledge graph | |
JP7164701B2 (en) | Computer-readable storage medium storing methods, apparatus, and instructions for matching semantic text data with tags | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
US9965459B2 (en) | Providing contextual information associated with a source document using information from external reference documents | |
US20170220561A1 (en) | Method of creating translation corpus | |
CN110457676B (en) | Evaluation information extraction method and device, storage medium and computer equipment | |
CN108549723B (en) | Text concept classification method and device and server | |
US9262400B2 (en) | Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents | |
CN111414763A (en) | Semantic disambiguation method, device, equipment and storage device for sign language calculation | |
CN111753082A (en) | Text classification method and device based on comment data, equipment and medium | |
Zhang et al. | Multilingual sentence categorization and novelty mining | |
US11537918B2 (en) | Systems and methods for document similarity matching | |
JP2019012457A (en) | Information processing device, information processing method, and program | |
Aida et al. | A comprehensive analysis of PMI-based models for measuring semantic differences | |
CN115062621A (en) | Label extraction method and device, electronic equipment and storage medium | |
WO2019163642A1 (en) | Summary evaluation device, method, program, and storage medium | |
CN114138969A (en) | Text processing method and device | |
CN114116997A (en) | Knowledge question answering method, knowledge question answering device, electronic equipment and storage medium | |
Indarapu et al. | Comparative analysis of machine learning algorithms to detect fake news | |
JP5366179B2 (en) | Information importance estimation system, method and program | |
Saini et al. | Intrinsic plagiarism detection system using stylometric features and DBSCAN | |
US20220083736A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
CN110083817B (en) | Naming disambiguation method, device and computer readable storage medium | |
WO2015159702A1 (en) | Partial-information extraction system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201217 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210202 |