JP7209909B1 - 情報処理装置、処理方法、及び処理プログラム - Google Patents

情報処理装置、処理方法、及び処理プログラム Download PDF

Info

Publication number
JP7209909B1
JP7209909B1 JP2022560867A JP2022560867A JP7209909B1 JP 7209909 B1 JP7209909 B1 JP 7209909B1 JP 2022560867 A JP2022560867 A JP 2022560867A JP 2022560867 A JP2022560867 A JP 2022560867A JP 7209909 B1 JP7209909 B1 JP 7209909B1
Authority
JP
Japan
Prior art keywords
words
word
texts
class
contribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022560867A
Other languages
English (en)
Other versions
JPWO2022244189A1 (ja
Inventor
隼人 内出
典宏 長徳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MITSUBISHI ELECTRIC BUILDING SOLUTIONS CORPORATION
Mitsubishi Electric Corp
Original Assignee
MITSUBISHI ELECTRIC BUILDING SOLUTIONS CORPORATION
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MITSUBISHI ELECTRIC BUILDING SOLUTIONS CORPORATION, Mitsubishi Electric Corp filed Critical MITSUBISHI ELECTRIC BUILDING SOLUTIONS CORPORATION
Publication of JPWO2022244189A1 publication Critical patent/JPWO2022244189A1/ja
Application granted granted Critical
Publication of JP7209909B1 publication Critical patent/JP7209909B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報処理装置(100)は、複数のテキストを取得する取得部(120)と、識別子であるクラスが対応付けられている複数のテキスト(111)に対して形態素解析を行う形態素解析部(130)と、形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する単語ベクトル作成部(140)と、複数の単語ベクトルに基づいて、クラスにおける単語の単語ベクトルと、複数のテキスト(111)内の全単語の単語ベクトルとの類似度の総和を算出し、算出された総和を用いて、複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する算出部(150)とを有する。

Description

本開示は、情報処理装置、処理方法、及び処理プログラムに関する。
大量のテキストを分類したい場合がある。例えば、ユーザが大量のテキストを手作業で分類する方法が考えられる。しかし、当該方法では、ユーザの負担が大きい。そこで、コンピュータが大量のテキストを自動で分類する技術が求められる。例えば、大量のテキストを自動で分類する方法として、文書自動分類方式が提案されている(非特許文献1を参照)。
河合敦夫「意味属性の学習結果にもとづく文書自動分類方式」、情報処理学会論文誌、1992年
ところで、非特許文献1には、得点を算出する方法が記載されている。以下の説明では、得点は、寄与度と呼ぶ。しかし、非特許文献1の方法は、寄与度の算出方法として、好ましくない場合がある。
本開示の目的は、寄与度を算出することである。
本開示の一態様に係る情報処理装置が提供される。情報処理装置は、複数のテキストを取得する取得部と、識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行う形態素解析部と、前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する単語ベクトル作成部と、前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する算出部と、を有する。
本開示によれば、寄与度を算出することができる。
実施の形態1のテキストの分類を説明するための図である。 実施の形態1の寄与度の例を示す図である。 出現頻度の算出例を示す図である。 実施の形態1の情報処理装置が有するハードウェアを示す図である。 実施の形態1の情報処理装置の機能を示すブロック図である。 実施の形態1の総和の算出例を示す図である。 実施の形態1の単語ごとの寄与度の具体例を示す図である。 実施の形態1の部分グラフの例を示す図である。 実施の形態1のクラスタリングが行われた状態の具体例を示す図である。 実施の形態1の情報処理装置が実行する処理の例を示すフローチャート(その1)である。 実施の形態1の情報処理装置が実行する処理の例を示すフローチャート(その2)である。 (A),(B)は、実施の形態1のラベルの付加方法の例を示す図である。 実施の形態2の情報処理装置の機能を示すブロック図である。 実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。
以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。
実施の形態1.
図1は、実施の形態1のテキストの分類を説明するための図である。図1は、テキストA,B,C,Dを示している。テキストA,B,C,Dを4つの分類先に分類する場合、テキスト内の単語にラベルを付加する方法が考えられる。コンピュータは、ラベルに基づいてテキストを分類することで、容易にテキストを分類することができる。
しかし、ラベルが付加される対象の単語が、どのような意味であるかが不明である。そのため、対象の単語には、どのようなラベルを付加すればよいかが問題となる。解決方法として、語義情報を用いて対象の単語の意味を特定して、当該意味のラベルを対象の単語に付加する方法が考えられる。当該方法を実現するために、語義情報を作成する必要がある。語義情報を作成する場合、寄与度に基づいて語義情報を作成する方法が考えられる。そこで、寄与度の算出を説明する。
まず、非特許文献1では、寄与度は、得点と呼んでいる。しかし、以下の説明では、得点は、寄与度と呼ぶ。なお、寄与度の定義については、後で説明する。非特許文献1には、寄与度に関する式が記載されている。寄与度Yijは、式(1)を用いて、表現される。なお、i及びjは、正の整数である。また、式(1)内のMijは、理論頻度(非特許文献1では、理論度数)と呼ぶ。式(1)内のFijは、出現頻度(非特許文献1では、頻度)と呼ぶ。
Figure 0007209909000001
理論頻度Mijは、式(2)を用いて、表現される。
Figure 0007209909000002
また、寄与度Yijは、次のように表現される。
図2は、実施の形態1の寄与度の例を示す図である。図2は、寄与度Yijを示している。cは、クラスを示す。wは、単語を示す。また、クラスcは、テキストに対応付けられている。理論頻度Mijは、クラスcにおける単語wの理論頻度Mijと表現してもよい。クラスcにおける単語wの出現頻度Fijは、次のように算出される。
図3は、出現頻度の算出例を示す図である。縦方向は、1つのテキスト内の単語を示している。横方向は、全てのテキスト内の全単語を示している。全てのテキスト内の全単語の中で重複する単語は、1つにまとめられている。
例えば、ある1つのテキスト内には、“電源”の単語が2つ含まれている。そのため、“電源”の出現頻度は、“2”になる。
また、例えば、ある1つのテキスト内には、“ドア”、“スイッチ”、及び“コンデンサ”の単語が含まれていない。そのため、“ドア”、“スイッチ”、及び“コンデンサ”の出現頻度は、“0”になる。
出現頻度が“0”である場合、式(2)の分母が0になる。このように、式(2)の分母が0になるため、非特許文献1の方法は、寄与度の算出方法として、好ましくない場合がある。
そこで、以下、寄与度が算出される場合を説明する。ここで、寄与度とは、語義情報を作成する際に寄与する度合である。
まず、情報処理装置が有するハードウェアを説明する。
図4は、実施の形態1の情報処理装置が有するハードウェアを示す図である。情報処理装置100は、処理方法を実行する装置である。情報処理装置100は、プロセッサ101、揮発性記憶装置102、及び不揮発性記憶装置103を有する。
プロセッサ101は、情報処理装置100全体を制御する。例えば、プロセッサ101は、CPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などである。プロセッサ101は、マルチプロセッサでもよい。また、情報処理装置100は、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。
揮発性記憶装置102は、情報処理装置100の主記憶装置である。例えば、揮発性記憶装置102は、RAM(Random Access Memory)である。不揮発性記憶装置103は、情報処理装置100の補助記憶装置である。例えば、不揮発性記憶装置103は、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)である。
次に、情報処理装置100が有する機能を説明する。
図5は、実施の形態1の情報処理装置の機能を示すブロック図である。情報処理装置100は、記憶部110、取得部120、形態素解析部130、単語ベクトル作成部140、算出部150、特定部160、及び作成処理部170を有する。
記憶部110は、揮発性記憶装置102又は不揮発性記憶装置103に確保した記憶領域として実現してもよい。
取得部120、形態素解析部130、単語ベクトル作成部140、算出部150、特定部160、及び作成処理部170の一部又は全部は、処理回路によって実現してもよい。また、取得部120、形態素解析部130、単語ベクトル作成部140、算出部150、特定部160、及び作成処理部170の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ101が実行するプログラムは、処理プログラムとも言う。例えば、処理プログラムは、記録媒体に記録されている。
記憶部110は、複数のテキスト111を記憶してもよい。複数のテキスト111のそれぞれには、クラスが対応付けられている。例えば、クラスは、ユーザのコンピュータ操作により、複数のテキスト111に対応付けられる。クラスは、識別子と呼んでもよい。クラスは、数字、記号、文字、文字列などである。クラスの種類は、1以上の種類である。例えば、図5は、“テキスト1”に“クラス1”が対応付けられていることを示している。
取得部120は、複数のテキスト111を取得する。例えば、取得部120は、複数のテキスト111を記憶部110から取得する。ここで、複数のテキスト111は、外部装置(例えば、クラウドサーバ)に格納されてもよい。複数のテキスト111が外部装置に格納されている場合、取得部120は、複数のテキスト111を外部装置から取得する。
形態素解析部130は、複数のテキスト111に対して形態素解析を行う。
単語ベクトル作成部140は、形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する。例えば、単語ベクトル作成部140は、当該複数の単語とword2vecとを用いて、複数の単語ベクトルを作成する。
算出部150は、複数の単語ベクトルに基づいて、クラスcにおける単語wの単語ベクトルと、複数のテキスト111内の全単語の単語ベクトルとの類似度の総和Sijを算出する。総和Sijは、式(3)によって、表現される。なお、式(3)のvw_ijはクラスcにおける単語wの単語ベクトルを示す。式(3)のvw_kは、複数のテキスト111内の全単語の単語ベクトルを示す。cosは、コサイン類似度を示している。
Figure 0007209909000003
ここで、総和Sijの算出例を示す。
図6は、実施の形態1の総和の算出例を示す図である。縦方向は、クラスcにおける単語の単語ベクトルを示している。横方向は、全てのテキスト内の全単語の単語ベクトルを示している。言い換えれば、横方向は、複数のテキスト111内の全単語の単語ベクトルを示している。
例えば、算出部150は、“扉”の単語ベクトルと“ドア”の単語ベクトルとに基づいて、類似度“0.9”を算出する。そして、算出部150は、総和“0.9”を算出する。このように、単語が一致しない場合でも、0よりも大きい数字が、総和として算出される。
算出部150は、同様に、クラスcごとに、総和Sijを算出する。
算出部150は、クラスcごとに算出された総和Sijを用いて、複数の単語のそれぞれの寄与度Yijを算出する。なお、クラスが1種類のみである場合、算出部150は、1つのクラスで算出された総和Sijを用いて、複数の単語のそれぞれの寄与度Yijを算出する。寄与度Yijは、式(4)を用いて、表現される。
Figure 0007209909000004
理論頻度Mijは、式(5)を用いて、表現される。
Figure 0007209909000005
なお、式(4)及び式(5)は、式(1)及び式(2)のFijがSijに変更された式である。
ここで、図6で例示したように、情報処理装置100は、式(3)を用いることで、式(5)の分母が0になることを防止する。よって、実施の形態1によれば、情報処理装置100は、寄与度Yijを算出することができる。
次に、寄与度Yijに基づいて、語義情報が作成される処理を説明する。
まず、算出部150は、式(4)を用いることで、複数の単語のそれぞれの寄与度Yijを算出できる。すなわち、図2のように、複数の単語のそれぞれの寄与度Yijが算出される。ここで、単語ごとの寄与度の具体例を示す。
図7は、実施の形態1の単語ごとの寄与度の具体例を示す図である。例えば、図7は、“電源”の寄与度が“34741.3”であることを示している。
特定部160は、複数の単語のそれぞれの寄与度Yijに基づいて、予め設定された閾値以上の寄与度に対応する単語を特定する。すなわち、特定部160は、寄与度の高い単語を特定する。
1つの単語が特定された場合、作成処理部170は、次の処理を行う。作成処理部170は、特定された単語と、特定された単語を含むテキストの中で、特定された単語と共起する単語である共起単語とに基づいて、クラスタを作成する。作成処理部170は、作成されたクラスタに基づいて、特定された単語の語義を示す語義情報を作成する。
2つ以上の単語が特定された場合、作成処理部170は、次の処理を行う。作成処理部170は、特定された単語ごとに、特定された単語と当該共起単語との関係を示す部分グラフを作成する。作成処理部170は、作成された複数の部分グラフに対してクラスタリングを行う。作成処理部170は、クラスタリングにより形成されたクラスタに基づいて、当該語義情報を作成する。
以下、詳細に語義情報の作成処理を説明する。また、当該説明では、2つ以上の単語が特定された場合を説明する。
作成処理部170は、特定された複数の単語の中から1つの単語を選択する。例えば、作成処理部170は、特定された複数の単語の中から、“電源”を選択する。ここで、選択された単語は、選択単語と呼ぶ。作成処理部170は、複数のテキスト111の中から選択単語を含むテキストを抽出する。例えば、作成処理部170は、複数のテキスト111の中から、“電源”を含むテキストを抽出する。作成処理部170は、選択単語と、抽出されたテキスト内で選択単語と共起する単語との関係を示す部分グラフを作成する。選択単語と共起する単語は、共起単語である。ここで、部分グラフの例を示す。
図8は、実施の形態1の部分グラフの例を示す図である。図8は、“電源”が選択単語であることを示している。図8は、抽出されたテキスト内には、“装置”、“静止”、“取り換え”などが含まれていることを示している。“装置”、“静止”、“取り換え”などの単語は、共起単語である。ここで、選択単語と共起単語は、ノードと考えてもよい。
また、例えば、図8は、抽出されたテキスト内に、“装置”が15回出現していることを示している。部分グラフでは、選択単語と共起単語は、エッジを介して接続する。エッジには、出現回数が付加される。出現回数は、共起回数と呼んでもよい。なお、出現回数が予め設定された閾値以下である場合、出現回数に対応する共起単語、及び当該共起単語に接続するエッジは、部分グラフに含まれなくてもよい。
作成処理部170は、同様に、特定された複数の単語のそれぞれに対応する部分グラフを作成する。
作成処理部170は、複数の部分グラフに対してクラスタリングを行う。例えば、作成処理部170は、マルコフクラスタリングを用いて、複数の部分グラフに対してクラスタリングを行う。また、例えば、作成処理部170は、word2vecを用いて、共起単語の単語ベクトルを作成し、作成された単語ベクトルと周知技術のクラスタリング技術とを用いて、クラスタリングを行ってもよい。なお、例えば、周知技術のクラスタリング技術は、K-means、GMM(Gaussian Mixture Model)などである。クラスタリングが行われた状態の具体例を示す。
図9は、実施の形態1のクラスタリングが行われた状態の具体例を示す図である。図9が示すように、複数の部分グラフに対してクラスタリングが行われる。これにより、複数のクラスタが形成される。例えば、“電源”、“装置”、“静止”、及び“取り換え”を含むクラスタが形成される。
作成処理部170は、クラスタの中心単語(すなわち、選択単語)の語義を、当該クラスタ内で中心単語と関係を有する単語とする。言い換えれば、作成処理部170は、クラスタの中心ノードの単語の語義を、当該クラスタ内で中心ノードと接続しているノードの単語とする。例えば、作成処理部170は、“電源”の語義を、“装置”、“静止”、及び“取り換え”とする。また、作成処理部170は、クラスタ内の単語を多く含むテキストに対応付けられているクラスを、クラスタに対応付けてもよい。例えば、作成処理部170は、“電源”、“装置”などを含むクラスタに、クラス“A用電源”を対応付ける。
作成処理部170は、クラスタごとに語義情報を作成する。詳細に語義情報の作成処理を説明する。作成処理部170は、中心単語と、中心単語の語義である単語との対応関係を示す情報である語義情報を作成する。例えば、作成処理部170は、“電源”と、“電源”の語義である“装置”、“静止”、及び“取り換え”との対応関係を示す情報である語義情報を作成する。作成処理部170は、語義情報を記憶部110に格納してもよい。語義情報には、クラスタに対応付けられたクラスが対応付けられてもよい。
次に、情報処理装置100が実行する処理を、フローチャートを用いて、説明する。
図10は、実施の形態1の情報処理装置が実行する処理の例を示すフローチャート(その1)である。
(ステップS11)取得部120は、複数のテキスト111を取得する。
(ステップS12)形態素解析部130は、複数のテキスト111に対して形態素解析を行う。
(ステップS13)単語ベクトル作成部140は、形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する。
(ステップS14)算出部150は、複数の単語ベクトルに基づいて、総和Sijを算出する。
(ステップS15)算出部150は、総和Sijを用いて、複数の単語のそれぞれの寄与度Yijを算出する。これにより、複数の単語のそれぞれの寄与度Yijが、算出される。そして、処理は、ステップS21に進む。
図11は、実施の形態1の情報処理装置が実行する処理の例を示すフローチャート(その2)である。
(ステップS21)特定部160は、複数の単語のそれぞれの寄与度Yijに基づいて、予め設定された閾値以上の寄与度に対応する単語を特定する。すなわち、特定部160は、寄与度の高い単語を特定する。
(ステップS22)作成処理部170は、特定された複数の単語の中から1つの単語を選択する。
(ステップS23)作成処理部170は、複数のテキスト111の中から選択単語を含むテキストを抽出する。
(ステップS24)作成処理部170は、選択単語と、抽出されたテキスト内で、選択単語と共起する共起単語との関係を示す部分グラフを作成する。
(ステップS25)作成処理部170は、全ての単語を選択したか否かを判定する。全ての単語が選択された場合、処理は、ステップS26に進む。選択されていない単語がある場合、処理は、ステップS22に進む。
(ステップS26)作成処理部170は、複数の部分グラフに対してクラスタリングを行う。これにより、複数のクラスタが形成される。
(ステップS27)作成処理部170は、クラスタに基づいて、語義情報を作成する。
次に、ラベルの付加方法を説明する。
図12(A),(B)は、実施の形態1のラベルの付加方法の例を示す図である。まず、語義情報は、“電源”の語義が、“装置”、“静止”、及び“取り換え”であることを示しているものとする。また、当該語義情報には、クラス“A用電源”が対応付けられている。
図12(A)は、ラベルの付加方法の例(その1)を示している。情報処理装置100は、テキストA内の“電源”の意味を推定する場合、語義情報を用いる。情報処理装置100は、テキストA内に“静止”が含まれていることを特定する。情報処理装置100は、“静止”が語義情報に含まれていることを特定する。情報処理装置100は、“電源”の意味が“静止”であると推定する。情報処理装置100は、“電源”に“静止”のラベルを付加する。
図12(B)は、ラベルの付加方法の例(その2)を示している。情報処理装置100は、テキストA内の“電源”にラベルを付加する場合、語義情報を用いる。情報処理装置100は、テキストA内に“静止”が含まれていることを特定する。情報処理装置100は、“静止”が語義情報に含まれていることを特定する。情報処理装置100は、語義情報に対応付けられているクラス“A用電源”のラベルを“電源”に付加する。
このように、単語にラベルが付加されることで、情報処理装置100は、テキストを分類する場合、容易にテキストを分類することができる。
実施の形態2.
次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。
実施の形態1では、複数のテキスト111のそれぞれに、クラスが対応付けられていた。実施の形態2では、クラスが対応付けられていない複数のテキスト111が扱われる。そして、実施の形態2では、情報処理装置100が、複数のテキスト111のそれぞれにクラスを対応付ける場合を説明する。
図13は、実施の形態2の情報処理装置の機能を示すブロック図である。情報処理装置100は、さらに、クラス付加処理部180を有する。
クラス付加処理部180の一部又は全部は、処理回路によって実現してもよい。また、クラス付加処理部180の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。
取得部120は、クラスが対応付けられていない複数のテキスト111を取得する。
クラス付加処理部180は、テキストごとに、テキストに対して形態素解析を行い、形態素解析により得られた複数の単語に基づいて複数の単語ベクトルを作成し、作成された複数の単語ベクトルに基づいて平均ベクトルを算出する。クラス付加処理部180は、テキストごとに算出された平均ベクトルを用いて、クラスが対応付けられていない複数のテキスト111に対してクラスタリングを行う。クラスタリングでは、K-means、GMMなどが用いられてもよい。これにより、複数のクラスタが形成される。クラスタには、1以上のテキストが含まれる。クラス付加処理部180は、形成されたクラスタごとに、クラスタに含まれているテキストにクラスを付加することにより、クラスが対応付けられている複数のテキスト111を作成する。例えば、1つのクラスタに2つのテキスト(例えば、テキスト1,2)が含まれている場合、クラス付加処理部180は、当該2つのテキストに同じクラス(例えば、クラス1)を付加する。これにより、例えば、図5のように、複数のテキスト111のそれぞれにクラスが付加される。
次に、情報処理装置100が実行する処理を、フローチャートを用いて説明する。
図14は、実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。図14の処理は、ステップS11a~11fが実行される点が図10の処理と異なる。そのため、図14では、ステップS11a~11fを説明する。そして、ステップS11a~11f以外の処理の説明は、省略する。
(ステップS11a)取得部120は、クラスが対応付けられていない複数のテキスト111を取得する。
(ステップS11b)クラス付加処理部180は、複数のテキスト111の中から1つのテキストを選択する。
(ステップS11c)クラス付加処理部180は、選択されたテキストに対して形態素解析を行う。クラス付加処理部180は、形態素解析により得られた複数の単語に基づいて複数の単語ベクトルを作成する。クラス付加処理部180は、複数の単語ベクトルに基づいて平均ベクトルを算出する。
(ステップS11d)クラス付加処理部180は、全てのテキストを選択したか否かを判定する。全てのテキストが選択された場合、処理は、ステップS11dに進む。選択されていないテキストが存在する場合、処理は、ステップS11aに進む。
(ステップS11e)クラス付加処理部180は、テキストごとに算出された平均ベクトルを用いて、複数のテキスト111に対してクラスタリングを行う。
(ステップS11f)クラス付加処理部180は、クラスタごとに、クラスタに含まれているテキストにクラスを付加する。
ここで、複数回のステップS11cが実行されるため、複数回の形態素解析が行われる。複数回の形態素解析は、ステップS12で行われる処理と同じである。そのため、ステップS12は、実行されなくてもよい。また、複数回のステップS11cが実行されるため、複数回の単語ベクトルの作成処理が実行される。複数回の単語ベクトルの作成処理は、ステップS13で行われる処理と同じである。そのため、ステップS13は、実行されなくてもよい。
実施の形態2によれば、情報処理装置100は、自動的にテキストにクラスを付加する。そのため、ユーザがテキストにクラスを付加する作業を行わなくて済む。よって、情報処理装置100は、ユーザの負担を軽減できる。
以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。
100 情報処理装置、 101 プロセッサ、 102 揮発性記憶装置、 103 不揮発性記憶装置、 110 記憶部、 111 複数のテキスト、 120 取得部、 130 形態素解析部、 140 単語ベクトル作成部、 150 算出部、 160 特定部、 170 作成処理部、 180 クラス付加処理部。

Claims (7)

  1. 複数のテキストを取得する取得部と、
    識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行う形態素解析部と、
    前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する単語ベクトル作成部と、
    前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する算出部と、
    を有する情報処理装置。
  2. 前記クラスは、複数の種類のクラスであり、
    前記算出部は、前記クラスごとに、前記総和を算出し、前記クラスごとに算出された前記総和を用いて、前記複数の単語のそれぞれの前記寄与度を算出する、
    請求項1に記載の情報処理装置。
  3. 前記複数の単語のそれぞれの前記寄与度に基づいて、予め設定された閾値以上の前記寄与度に対応する単語を特定する特定部と、
    特定された単語と、特定された単語を含むテキストの中で、特定された単語と共起する単語である共起単語とに基づいて、クラスタを作成し、作成されたクラスタに基づいて、特定された単語の語義を示す前記語義情報を作成する作成処理部と、
    をさらに有する、
    請求項1又は2に記載の情報処理装置。
  4. 前記作成処理部は、特定された単語ごとに、特定された単語と前記共起単語との関係を示す部分グラフを作成し、作成された複数の部分グラフに対してクラスタリングを行い、クラスタリングにより形成されたクラスタに基づいて、前記語義情報を作成する、
    請求項3に記載の情報処理装置。
  5. クラス付加処理部をさらに有し、
    前記取得部は、前記クラスが対応付けられていない複数のテキストを取得し、
    前記クラス付加処理部は、テキストごとに、テキストに対して形態素解析を行い、前記形態素解析により得られた複数の単語に基づいて複数の単語ベクトルを作成し、作成された複数の単語ベクトルに基づいて平均ベクトルを算出し、テキストごとに算出された平均ベクトルを用いて、前記クラスが対応付けられていない複数のテキストに対してクラスタリングを行い、形成されたクラスタごとに、クラスタに含まれているテキストに前記クラスを付加することにより、前記複数のテキストを作成する、
    請求項1から4のいずれか1項に記載の情報処理装置。
  6. 情報処理装置が、
    複数のテキストを取得し、
    識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行い、
    前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成し、
    前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、
    算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する、
    処理方法。
  7. 情報処理装置に、
    複数のテキストを取得し、
    識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行い、
    前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成し、
    前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、
    算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する、
    処理を実行させる処理プログラム。
JP2022560867A 2021-05-20 2021-05-20 情報処理装置、処理方法、及び処理プログラム Active JP7209909B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/019170 WO2022244189A1 (ja) 2021-05-20 2021-05-20 情報処理装置、処理方法、及び処理プログラム

Publications (2)

Publication Number Publication Date
JPWO2022244189A1 JPWO2022244189A1 (ja) 2022-11-24
JP7209909B1 true JP7209909B1 (ja) 2023-01-20

Family

ID=84141540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022560867A Active JP7209909B1 (ja) 2021-05-20 2021-05-20 情報処理装置、処理方法、及び処理プログラム

Country Status (2)

Country Link
JP (1) JP7209909B1 (ja)
WO (1) WO2022244189A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013016011A (ja) * 2011-07-04 2013-01-24 Nippon Telegr & Teleph Corp <Ntt> 同義語辞書生成装置、その方法、及びプログラム
JP2016027493A (ja) * 2015-09-29 2016-02-18 株式会社東芝 文書分類支援装置、方法及びプログラム
US20200327381A1 (en) * 2019-04-10 2020-10-15 International Business Machines Corporation Evaluating text classification anomalies predicted by a text classification model

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013016011A (ja) * 2011-07-04 2013-01-24 Nippon Telegr & Teleph Corp <Ntt> 同義語辞書生成装置、その方法、及びプログラム
JP2016027493A (ja) * 2015-09-29 2016-02-18 株式会社東芝 文書分類支援装置、方法及びプログラム
US20200327381A1 (en) * 2019-04-10 2020-10-15 International Business Machines Corporation Evaluating text classification anomalies predicted by a text classification model

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
河合 敦夫,意味属性の学習結果にもとづく文書自動分類方式,情報処理学会論文誌,日本,社団法人情報処理学会,1992年09月16日,第33巻第9号,pp. 1114-1122
河合 敦夫: "意味属性の学習結果にもとづく文書自動分類方式", 情報処理学会論文誌, vol. 第33巻第9号, JPN6021030228, 16 September 1992 (1992-09-16), JP, pages 1114 - 1122, ISSN: 0004943805 *

Also Published As

Publication number Publication date
WO2022244189A1 (ja) 2022-11-24
JPWO2022244189A1 (ja) 2022-11-24

Similar Documents

Publication Publication Date Title
Rastegari et al. Predictable dual-view hashing
Lu et al. Source free transfer learning for text classification
RU2583716C2 (ru) Метод построения и обнаружения тематической структуры корпуса
WO2008098956A1 (en) Method and apparatus for automatically discovering features in free form heterogeneous data
Carbonneau et al. Bag-level aggregation for multiple-instance active learning in instance classification problems
Zhang et al. Multi-modal multi-label emotion detection with modality and label dependence
US10366108B2 (en) Distributional alignment of sets
JPWO2019102533A1 (ja) 文献分類装置
JP2009163303A (ja) 検索フィルタリング装置及び検索フィルタリングプログラム
Li et al. Hierarchical latent concept discovery for video event detection
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
US11880755B2 (en) Semi-supervised learning with group constraints
Tsarev et al. Using NMF-based text summarization to improve supervised and unsupervised classification
US10339407B2 (en) Noise mitigation in vector space representations of item collections
US20220147758A1 (en) Computer-readable recording medium storing inference program and method of inferring
Haripriya et al. Multi label prediction using association rule generation and simple k-means
JP7209909B1 (ja) 情報処理装置、処理方法、及び処理プログラム
Kim et al. Support Vector Machine Learning for Region‐Based Image Retrieval with Relevance Feedback
US20190286703A1 (en) Clustering program, clustering method, and clustering device for generating distributed representation of words
Morsillo et al. Youtube scale, large vocabulary video annotation
Song et al. Iterative 3D shape classification by online metric learning
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
CN114265964A (zh) 大数据异常行为检测方法及装置、存储介质及电子设备
Lei et al. An HMM-SVM-based automatic image annotation approach
Song et al. Video annotation by active learning and semi-supervised ensembling

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221005

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230110

R150 Certificate of patent or registration of utility model

Ref document number: 7209909

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150