JP7209909B1 - 情報処理装置、処理方法、及び処理プログラム - Google Patents
情報処理装置、処理方法、及び処理プログラム Download PDFInfo
- Publication number
- JP7209909B1 JP7209909B1 JP2022560867A JP2022560867A JP7209909B1 JP 7209909 B1 JP7209909 B1 JP 7209909B1 JP 2022560867 A JP2022560867 A JP 2022560867A JP 2022560867 A JP2022560867 A JP 2022560867A JP 7209909 B1 JP7209909 B1 JP 7209909B1
- Authority
- JP
- Japan
- Prior art keywords
- words
- word
- texts
- class
- contribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 53
- 238000003672 processing method Methods 0.000 title claims description 4
- 239000013598 vector Substances 0.000 claims abstract description 61
- 238000004458 analytical method Methods 0.000 claims abstract description 31
- 230000000877 morphologic effect Effects 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 description 34
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 239000003990 capacitor Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、実施の形態1のテキストの分類を説明するための図である。図1は、テキストA,B,C,Dを示している。テキストA,B,C,Dを4つの分類先に分類する場合、テキスト内の単語にラベルを付加する方法が考えられる。コンピュータは、ラベルに基づいてテキストを分類することで、容易にテキストを分類することができる。
図2は、実施の形態1の寄与度の例を示す図である。図2は、寄与度Yijを示している。cは、クラスを示す。wは、単語を示す。また、クラスciは、テキストに対応付けられている。理論頻度Mijは、クラスciにおける単語wjの理論頻度Mijと表現してもよい。クラスciにおける単語wjの出現頻度Fijは、次のように算出される。
また、例えば、ある1つのテキスト内には、“ドア”、“スイッチ”、及び“コンデンサ”の単語が含まれていない。そのため、“ドア”、“スイッチ”、及び“コンデンサ”の出現頻度は、“0”になる。
まず、情報処理装置が有するハードウェアを説明する。
図5は、実施の形態1の情報処理装置の機能を示すブロック図である。情報処理装置100は、記憶部110、取得部120、形態素解析部130、単語ベクトル作成部140、算出部150、特定部160、及び作成処理部170を有する。
取得部120、形態素解析部130、単語ベクトル作成部140、算出部150、特定部160、及び作成処理部170の一部又は全部は、処理回路によって実現してもよい。また、取得部120、形態素解析部130、単語ベクトル作成部140、算出部150、特定部160、及び作成処理部170の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ101が実行するプログラムは、処理プログラムとも言う。例えば、処理プログラムは、記録媒体に記録されている。
単語ベクトル作成部140は、形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する。例えば、単語ベクトル作成部140は、当該複数の単語とword2vecとを用いて、複数の単語ベクトルを作成する。
図6は、実施の形態1の総和の算出例を示す図である。縦方向は、クラスciにおける単語の単語ベクトルを示している。横方向は、全てのテキスト内の全単語の単語ベクトルを示している。言い換えれば、横方向は、複数のテキスト111内の全単語の単語ベクトルを示している。
算出部150は、同様に、クラスciごとに、総和Sijを算出する。
ここで、図6で例示したように、情報処理装置100は、式(3)を用いることで、式(5)の分母が0になることを防止する。よって、実施の形態1によれば、情報処理装置100は、寄与度Yijを算出することができる。
まず、算出部150は、式(4)を用いることで、複数の単語のそれぞれの寄与度Yijを算出できる。すなわち、図2のように、複数の単語のそれぞれの寄与度Yijが算出される。ここで、単語ごとの寄与度の具体例を示す。
特定部160は、複数の単語のそれぞれの寄与度Yijに基づいて、予め設定された閾値以上の寄与度に対応する単語を特定する。すなわち、特定部160は、寄与度の高い単語を特定する。
作成処理部170は、特定された複数の単語の中から1つの単語を選択する。例えば、作成処理部170は、特定された複数の単語の中から、“電源”を選択する。ここで、選択された単語は、選択単語と呼ぶ。作成処理部170は、複数のテキスト111の中から選択単語を含むテキストを抽出する。例えば、作成処理部170は、複数のテキスト111の中から、“電源”を含むテキストを抽出する。作成処理部170は、選択単語と、抽出されたテキスト内で選択単語と共起する単語との関係を示す部分グラフを作成する。選択単語と共起する単語は、共起単語である。ここで、部分グラフの例を示す。
図10は、実施の形態1の情報処理装置が実行する処理の例を示すフローチャート(その1)である。
(ステップS11)取得部120は、複数のテキスト111を取得する。
(ステップS12)形態素解析部130は、複数のテキスト111に対して形態素解析を行う。
(ステップS13)単語ベクトル作成部140は、形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する。
(ステップS15)算出部150は、総和Sijを用いて、複数の単語のそれぞれの寄与度Yijを算出する。これにより、複数の単語のそれぞれの寄与度Yijが、算出される。そして、処理は、ステップS21に進む。
(ステップS21)特定部160は、複数の単語のそれぞれの寄与度Yijに基づいて、予め設定された閾値以上の寄与度に対応する単語を特定する。すなわち、特定部160は、寄与度の高い単語を特定する。
(ステップS22)作成処理部170は、特定された複数の単語の中から1つの単語を選択する。
(ステップS24)作成処理部170は、選択単語と、抽出されたテキスト内で、選択単語と共起する共起単語との関係を示す部分グラフを作成する。
(ステップS26)作成処理部170は、複数の部分グラフに対してクラスタリングを行う。これにより、複数のクラスタが形成される。
(ステップS27)作成処理部170は、クラスタに基づいて、語義情報を作成する。
図12(A),(B)は、実施の形態1のラベルの付加方法の例を示す図である。まず、語義情報は、“電源”の語義が、“装置”、“静止”、及び“取り換え”であることを示しているものとする。また、当該語義情報には、クラス“A用電源”が対応付けられている。
このように、単語にラベルが付加されることで、情報処理装置100は、テキストを分類する場合、容易にテキストを分類することができる。
次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。
クラス付加処理部180の一部又は全部は、処理回路によって実現してもよい。また、クラス付加処理部180の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。
クラス付加処理部180は、テキストごとに、テキストに対して形態素解析を行い、形態素解析により得られた複数の単語に基づいて複数の単語ベクトルを作成し、作成された複数の単語ベクトルに基づいて平均ベクトルを算出する。クラス付加処理部180は、テキストごとに算出された平均ベクトルを用いて、クラスが対応付けられていない複数のテキスト111に対してクラスタリングを行う。クラスタリングでは、K-means、GMMなどが用いられてもよい。これにより、複数のクラスタが形成される。クラスタには、1以上のテキストが含まれる。クラス付加処理部180は、形成されたクラスタごとに、クラスタに含まれているテキストにクラスを付加することにより、クラスが対応付けられている複数のテキスト111を作成する。例えば、1つのクラスタに2つのテキスト(例えば、テキスト1,2)が含まれている場合、クラス付加処理部180は、当該2つのテキストに同じクラス(例えば、クラス1)を付加する。これにより、例えば、図5のように、複数のテキスト111のそれぞれにクラスが付加される。
図14は、実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。図14の処理は、ステップS11a~11fが実行される点が図10の処理と異なる。そのため、図14では、ステップS11a~11fを説明する。そして、ステップS11a~11f以外の処理の説明は、省略する。
(ステップS11b)クラス付加処理部180は、複数のテキスト111の中から1つのテキストを選択する。
(ステップS11e)クラス付加処理部180は、テキストごとに算出された平均ベクトルを用いて、複数のテキスト111に対してクラスタリングを行う。
(ステップS11f)クラス付加処理部180は、クラスタごとに、クラスタに含まれているテキストにクラスを付加する。
Claims (7)
- 複数のテキストを取得する取得部と、
識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行う形態素解析部と、
前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する単語ベクトル作成部と、
前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する算出部と、
を有する情報処理装置。 - 前記クラスは、複数の種類のクラスであり、
前記算出部は、前記クラスごとに、前記総和を算出し、前記クラスごとに算出された前記総和を用いて、前記複数の単語のそれぞれの前記寄与度を算出する、
請求項1に記載の情報処理装置。 - 前記複数の単語のそれぞれの前記寄与度に基づいて、予め設定された閾値以上の前記寄与度に対応する単語を特定する特定部と、
特定された単語と、特定された単語を含むテキストの中で、特定された単語と共起する単語である共起単語とに基づいて、クラスタを作成し、作成されたクラスタに基づいて、特定された単語の語義を示す前記語義情報を作成する作成処理部と、
をさらに有する、
請求項1又は2に記載の情報処理装置。 - 前記作成処理部は、特定された単語ごとに、特定された単語と前記共起単語との関係を示す部分グラフを作成し、作成された複数の部分グラフに対してクラスタリングを行い、クラスタリングにより形成されたクラスタに基づいて、前記語義情報を作成する、
請求項3に記載の情報処理装置。 - クラス付加処理部をさらに有し、
前記取得部は、前記クラスが対応付けられていない複数のテキストを取得し、
前記クラス付加処理部は、テキストごとに、テキストに対して形態素解析を行い、前記形態素解析により得られた複数の単語に基づいて複数の単語ベクトルを作成し、作成された複数の単語ベクトルに基づいて平均ベクトルを算出し、テキストごとに算出された平均ベクトルを用いて、前記クラスが対応付けられていない複数のテキストに対してクラスタリングを行い、形成されたクラスタごとに、クラスタに含まれているテキストに前記クラスを付加することにより、前記複数のテキストを作成する、
請求項1から4のいずれか1項に記載の情報処理装置。 - 情報処理装置が、
複数のテキストを取得し、
識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行い、
前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成し、
前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、
算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する、
処理方法。 - 情報処理装置に、
複数のテキストを取得し、
識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行い、
前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成し、
前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、
算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する、
処理を実行させる処理プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/019170 WO2022244189A1 (ja) | 2021-05-20 | 2021-05-20 | 情報処理装置、処理方法、及び処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2022244189A1 JPWO2022244189A1 (ja) | 2022-11-24 |
JP7209909B1 true JP7209909B1 (ja) | 2023-01-20 |
Family
ID=84141540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022560867A Active JP7209909B1 (ja) | 2021-05-20 | 2021-05-20 | 情報処理装置、処理方法、及び処理プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7209909B1 (ja) |
WO (1) | WO2022244189A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013016011A (ja) * | 2011-07-04 | 2013-01-24 | Nippon Telegr & Teleph Corp <Ntt> | 同義語辞書生成装置、その方法、及びプログラム |
JP2016027493A (ja) * | 2015-09-29 | 2016-02-18 | 株式会社東芝 | 文書分類支援装置、方法及びプログラム |
US20200327381A1 (en) * | 2019-04-10 | 2020-10-15 | International Business Machines Corporation | Evaluating text classification anomalies predicted by a text classification model |
-
2021
- 2021-05-20 JP JP2022560867A patent/JP7209909B1/ja active Active
- 2021-05-20 WO PCT/JP2021/019170 patent/WO2022244189A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013016011A (ja) * | 2011-07-04 | 2013-01-24 | Nippon Telegr & Teleph Corp <Ntt> | 同義語辞書生成装置、その方法、及びプログラム |
JP2016027493A (ja) * | 2015-09-29 | 2016-02-18 | 株式会社東芝 | 文書分類支援装置、方法及びプログラム |
US20200327381A1 (en) * | 2019-04-10 | 2020-10-15 | International Business Machines Corporation | Evaluating text classification anomalies predicted by a text classification model |
Non-Patent Citations (2)
Title |
---|
河合 敦夫,意味属性の学習結果にもとづく文書自動分類方式,情報処理学会論文誌,日本,社団法人情報処理学会,1992年09月16日,第33巻第9号,pp. 1114-1122 |
河合 敦夫: "意味属性の学習結果にもとづく文書自動分類方式", 情報処理学会論文誌, vol. 第33巻第9号, JPN6021030228, 16 September 1992 (1992-09-16), JP, pages 1114 - 1122, ISSN: 0004943805 * |
Also Published As
Publication number | Publication date |
---|---|
WO2022244189A1 (ja) | 2022-11-24 |
JPWO2022244189A1 (ja) | 2022-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rastegari et al. | Predictable dual-view hashing | |
Lu et al. | Source free transfer learning for text classification | |
RU2583716C2 (ru) | Метод построения и обнаружения тематической структуры корпуса | |
WO2008098956A1 (en) | Method and apparatus for automatically discovering features in free form heterogeneous data | |
Carbonneau et al. | Bag-level aggregation for multiple-instance active learning in instance classification problems | |
Zhang et al. | Multi-modal multi-label emotion detection with modality and label dependence | |
US10366108B2 (en) | Distributional alignment of sets | |
JPWO2019102533A1 (ja) | 文献分類装置 | |
JP2009163303A (ja) | 検索フィルタリング装置及び検索フィルタリングプログラム | |
Li et al. | Hierarchical latent concept discovery for video event detection | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
US11880755B2 (en) | Semi-supervised learning with group constraints | |
Tsarev et al. | Using NMF-based text summarization to improve supervised and unsupervised classification | |
US10339407B2 (en) | Noise mitigation in vector space representations of item collections | |
US20220147758A1 (en) | Computer-readable recording medium storing inference program and method of inferring | |
Haripriya et al. | Multi label prediction using association rule generation and simple k-means | |
JP7209909B1 (ja) | 情報処理装置、処理方法、及び処理プログラム | |
Kim et al. | Support Vector Machine Learning for Region‐Based Image Retrieval with Relevance Feedback | |
US20190286703A1 (en) | Clustering program, clustering method, and clustering device for generating distributed representation of words | |
Morsillo et al. | Youtube scale, large vocabulary video annotation | |
Song et al. | Iterative 3D shape classification by online metric learning | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
CN114265964A (zh) | 大数据异常行为检测方法及装置、存储介质及电子设备 | |
Lei et al. | An HMM-SVM-based automatic image annotation approach | |
Song et al. | Video annotation by active learning and semi-supervised ensembling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221005 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20221005 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7209909 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |