JP2018025874A - テキスト解析装置及びプログラム - Google Patents
テキスト解析装置及びプログラム Download PDFInfo
- Publication number
- JP2018025874A JP2018025874A JP2016155722A JP2016155722A JP2018025874A JP 2018025874 A JP2018025874 A JP 2018025874A JP 2016155722 A JP2016155722 A JP 2016155722A JP 2016155722 A JP2016155722 A JP 2016155722A JP 2018025874 A JP2018025874 A JP 2018025874A
- Authority
- JP
- Japan
- Prior art keywords
- word
- text
- classification
- snippet
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 31
- 230000014509 gene expression Effects 0.000 claims description 45
- 238000000605 extraction Methods 0.000 claims description 38
- 238000009826 distribution Methods 0.000 claims description 34
- 238000004458 analytical method Methods 0.000 claims description 29
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 15
- 239000006185 dispersion Substances 0.000 claims description 14
- 239000000284 extract Substances 0.000 abstract description 8
- 238000012545 processing Methods 0.000 description 18
- 238000010801 machine learning Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 235000009508 confectionery Nutrition 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Abstract
Description
「に/とても/悲しい/こと/を」
となる。
ID=1のラベルは「喜」で見出し語は「嬉しい」
ID=2のラベルは「怒」で見出し語は「腹立たしい」
ID=3のラベルは「哀」で見出し語は「悲しい」
等である。
ID=1のテキストは「彼にとても悲しいことを言われた」
ID=2のテキストは「思いがけずプレゼントを貰えて嬉しい」
ID=3のテキストは「嬉しいことがとても多い」
等である。
ID=1のラベルは「ポジティブ」でテキストは「新しいスマホが買えてとても嬉しいです!!」
ID=2のラベルは「ネガティブ」でテキストは「今日は仕事で失敗して悲しい」
ID=3のラベルは「ニュートラル」でテキストは「今電車で移動しています」
等である。
「貰え/て/嬉しい/。」→「貰え/て/XX/。」
「嬉しい/こと/が」→「XX/こと/が」
と置換する。
「に/とても/悲しい/こと/を」→「に/とても/XX/こと/を」
と置換する。
「嬉しい」=[1.1,0.1,−0.2]
「悲しい」=[0.2,0.3,1.5]
「貰う」=[0.7,0.2,−0.1]
であると仮定する。
ci=f(w・xi:i+h−1)
w∈Rhk
w=[0.1,−0.1,−0.2]
に初期化される。なお、h>1であれば、2単語以上について単語分散表現の次元の組合せに対する処理となる。
w=[2.0,−0.1,−1.8]
に更新される。
実施形態では、テキスト(ラベルなし)データベース101、分類情報付き辞書データベース102、及び文/文書ラベル付きテキストデータベース121は記憶装置30に記憶されているが、それぞれ別の記憶装置に記憶されていてもよく、ネットワーク上のそれぞれ別のサーバコンピュータに記憶されていてもよい。
実施形態では、スニペットとして見出し語の周辺L語を抽出するものとし、L=2としているが、L=1、あるいはL=3、L=4等としてもよい。要するに、分類情報付き辞書データベース102に記憶されている見出し語の前後の1つ又は複数の単語を抽出してスニペットを抽出すればよい。一般に、Lは1よりも2,3,4・・・の方が解析精度は向上すると考えられるが、スニペットの数が増大するとその分だけ処理が複雑化して時間を要することになる。従って、見出し語の前後2語程度が適当と考えられるが、必ずしもこれに限定されない。種々のLについて学習し、精度及び処理時間の観点からLを最適化してもよい。
実施形態の解析対象は文/文書のテキストであるが、音声を入力してテキスト化し、当該テキストを解析対象としてもよい。この場合、テキスト解析装置は、テキスト化音声解析装置として機能し得る。
実施形態では、一つのコンピュータに単語分類学習部10及び文/文書分類学習部12がともに実装されているが、これらをそれぞれ別のコンピュータに実装してもよい。
実施形態では、CPU20及び処理プログラムによりニューラルネットワーク(第1ニューラルネットワーク及び第2ニューラルネットワーク)を実装しているが、これに代えて、専用ハードウェア(ASIC)によりニューラルネットワークを実装してもよく、あるいはFPGAを用いて実装してもよい。FPGAを用いる場合でも、その一部をソフトウェアで実装してもよく、ハードウェアとソフトウェアの複合体として実装してもよい。
Claims (4)
- テキストから分類情報付き見出し語周辺の1つ又は複数の単語をスニペットとして抽出するスニペット抽出手段と、
抽出したスニペット中の単語を用いて第1ニューラルネットワークで学習して単語単位の分類情報を取得する取得手段と、
を備えるテキスト解析装置。 - 事前学習手段で得られた単語単位の分類情報を用いて第2ニューラルネットワークの重みを初期化し、分類情報付きテキストを用いて第2ニューラルネットワークで学習してテキストが入力された場合に当該テキストの分類を出力する学習手段と、
を備える請求項1に記載のテキスト解析装置。 - スニペット中の単語を単語分散表現に変換する単語分散表現変換手段と、
単語分散表現の列に対して畳み込み演算を行う単語畳み込み演算手段と、
誤差逆伝播法により単語分散表現、及び単語畳み込み層の重みを更新する更新手段と、
を備える請求項1,2のいずれかに記載のテキスト解析装置。 - コンピュータを
テキストから分類情報付き見出し語周辺の1つ又は複数の単語をスニペットとして抽出するスニペット抽出手段と、
抽出したスニペット中の単語を用いて第1ニューラルネットワークで学習して単語単位の分類情報を取得する取得手段
として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016155722A JP6720764B2 (ja) | 2016-08-08 | 2016-08-08 | テキスト解析装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016155722A JP6720764B2 (ja) | 2016-08-08 | 2016-08-08 | テキスト解析装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018025874A true JP2018025874A (ja) | 2018-02-15 |
JP6720764B2 JP6720764B2 (ja) | 2020-07-08 |
Family
ID=61193789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016155722A Expired - Fee Related JP6720764B2 (ja) | 2016-08-08 | 2016-08-08 | テキスト解析装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6720764B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018230551A1 (ja) * | 2017-06-16 | 2018-12-20 | 新日鉄住金ソリューションズ株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN110472040A (zh) * | 2019-06-26 | 2019-11-19 | 平安科技(深圳)有限公司 | 评价信息的提取方法及装置、存储介质、计算机设备 |
JP2020027359A (ja) * | 2018-08-09 | 2020-02-20 | 株式会社日立製作所 | 計算機システム及び学習方法 |
CN111222344A (zh) * | 2020-01-03 | 2020-06-02 | 支付宝(杭州)信息技术有限公司 | 训练神经网络的方法、装置及电子设备 |
JP2020091549A (ja) * | 2018-12-03 | 2020-06-11 | 日本放送協会 | テキスト分類装置、学習装置、およびプログラム |
JP2020113035A (ja) * | 2019-01-11 | 2020-07-27 | 株式会社東芝 | 分類支援システム、分類支援装置、学習装置、分類支援方法、及びプログラム |
JP2022068101A (ja) * | 2020-10-21 | 2022-05-09 | ネイバー コーポレーション | 検索クエリの意図を反映した検索結果提供の方法及びシステム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04117560A (ja) * | 1990-09-07 | 1992-04-17 | Fujitsu Ltd | 節/句境界抽出方式 |
JP2007323475A (ja) * | 2006-06-02 | 2007-12-13 | Advanced Telecommunication Research Institute International | 自然言語における多義解消装置及びコンピュータプログラム |
JP2010152561A (ja) * | 2008-12-24 | 2010-07-08 | Toshiba Corp | 類似表現抽出装置、サーバ装置及びプログラム |
-
2016
- 2016-08-08 JP JP2016155722A patent/JP6720764B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04117560A (ja) * | 1990-09-07 | 1992-04-17 | Fujitsu Ltd | 節/句境界抽出方式 |
JP2007323475A (ja) * | 2006-06-02 | 2007-12-13 | Advanced Telecommunication Research Institute International | 自然言語における多義解消装置及びコンピュータプログラム |
JP2010152561A (ja) * | 2008-12-24 | 2010-07-08 | Toshiba Corp | 類似表現抽出装置、サーバ装置及びプログラム |
Non-Patent Citations (1)
Title |
---|
KIM, YOON: "Convolutional Neural Networks for Sentence Classification", EMNLP2014, JPN6019051801, 3 September 2014 (2014-09-03), US, pages 1 - 6, ISSN: 0004188368 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018230551A1 (ja) * | 2017-06-16 | 2018-12-20 | 新日鉄住金ソリューションズ株式会社 | 情報処理装置、情報処理方法及びプログラム |
JPWO2018230551A1 (ja) * | 2017-06-16 | 2019-06-27 | 日鉄ソリューションズ株式会社 | 情報処理装置、情報処理方法及びプログラム |
US11386354B2 (en) | 2017-06-16 | 2022-07-12 | Ns Solutions Corporation | Information processing apparatus, information processing method, and program |
JP2020027359A (ja) * | 2018-08-09 | 2020-02-20 | 株式会社日立製作所 | 計算機システム及び学習方法 |
JP2020091549A (ja) * | 2018-12-03 | 2020-06-11 | 日本放送協会 | テキスト分類装置、学習装置、およびプログラム |
JP7186591B2 (ja) | 2018-12-03 | 2022-12-09 | 日本放送協会 | テキスト分類装置、学習装置、およびプログラム |
JP2020113035A (ja) * | 2019-01-11 | 2020-07-27 | 株式会社東芝 | 分類支援システム、分類支援装置、学習装置、分類支援方法、及びプログラム |
CN110472040A (zh) * | 2019-06-26 | 2019-11-19 | 平安科技(深圳)有限公司 | 评价信息的提取方法及装置、存储介质、计算机设备 |
CN111222344A (zh) * | 2020-01-03 | 2020-06-02 | 支付宝(杭州)信息技术有限公司 | 训练神经网络的方法、装置及电子设备 |
CN111222344B (zh) * | 2020-01-03 | 2023-07-18 | 支付宝(杭州)信息技术有限公司 | 训练神经网络的方法、装置及电子设备 |
JP2022068101A (ja) * | 2020-10-21 | 2022-05-09 | ネイバー コーポレーション | 検索クエリの意図を反映した検索結果提供の方法及びシステム |
Also Published As
Publication number | Publication date |
---|---|
JP6720764B2 (ja) | 2020-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Farahani et al. | Parsbert: Transformer-based model for persian language understanding | |
Arora et al. | Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis | |
CN109213995B (zh) | 一种基于双语词嵌入的跨语言文本相似度评估技术 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
JP6720764B2 (ja) | テキスト解析装置及びプログラム | |
CN108614875B (zh) | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 | |
Wang et al. | Mapping customer needs to design parameters in the front end of product design by applying deep learning | |
CN110457708B (zh) | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 | |
CN109670180B (zh) | 向量化译员的翻译个性特征的方法及装置 | |
CN107861954B (zh) | 基于人工智能的信息输出方法和装置 | |
US11769011B2 (en) | Universal language segment representations learning with conditional masked language model | |
Shirsat et al. | Document level sentiment analysis from news articles | |
Kheiri et al. | Sentimentgpt: Exploiting gpt for advanced sentiment analysis and its departure from current machine learning | |
CN112256860A (zh) | 客服对话内容的语义检索方法、系统、设备及存储介质 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN111858935A (zh) | 一种航班点评的细粒度情感分类系统 | |
CN109325120A (zh) | 一种分离用户和产品注意力机制的文本情感分类方法 | |
Banik et al. | Gru based named entity recognition system for bangla online newspapers | |
Ayutthaya et al. | Thai sentiment analysis via bidirectional LSTM-CNN model with embedding vectors and sentic features | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN115860006A (zh) | 一种基于语义句法的方面级情感预测方法及装置 | |
Elsherif et al. | Perspectives of Arabic machine translation | |
Matrane et al. | A systematic literature review of Arabic dialect sentiment analysis | |
Svärd et al. | Semantic domains in Akkadian texts | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190610 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200305 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200519 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200601 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6720764 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |