JP2015169951A - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2015169951A JP2015169951A JP2014041983A JP2014041983A JP2015169951A JP 2015169951 A JP2015169951 A JP 2015169951A JP 2014041983 A JP2014041983 A JP 2014041983A JP 2014041983 A JP2014041983 A JP 2014041983A JP 2015169951 A JP2015169951 A JP 2015169951A
- Authority
- JP
- Japan
- Prior art keywords
- word
- data
- gram
- learning
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
Description
図1は、実施の形態の情報処理装置の機能ブロックを示す図である。情報処理装置は、学習データ21を入力する入力部10と、学習データ21の単語分割を行う単語分割部11と、分割された単語のデータに基づいて学習を行う文字Nグラム学習部12と、単語Nグラム学習部14と、単語境界学習部16とを有している。単語Nグラム学習部14は、図2に示す再帰型ニューラルネットワークを用いて、単語Nグラムの学習を行う。また、情報処理装置は、学習された再帰型ニューラルネットワークを用いて単語の概念ベクトル22を算出する概念ベクトル算出部18と、概念ベクトル22に基づいて単語のクラスタリングを行うクラスタリング部19と、概念ベクトル22を出力する出力部20とを有している。
文xの分割候補wを次のように書く。
11 単語分割部
12 文字Nグラム学習部
13 文字Nグラム記憶部
14 単語Nグラム学習部
15 単語Nグラム記憶部
16 単語境界学習部
17 単語分割モデル記憶部
18 概念ベクトル算出部
19 出力部
20 学習データ
21 概念ベクトル
30 入力層
31 入力層
32 中間層
33 出力層
40 CPU
41 RAM
42 ROM
43 プログラム
44 通信インターフェース
45 ハードディスク
46 キーボード
47 モニタ
Claims (7)
- 学習データとして文のデータを入力する入力部と、
文字Nグラムまたは単語分割モデルを用いて前記学習データを単語分割する単語分割部と、
分割された単語のデータに基づいて文字Nグラムの学習を行い、学習した文字Nグラムを文字Nグラム記憶部に記憶する文字Nグラム学習部と、
分割された単語のデータに基づいて単語境界の認識を行う系列ラベリングによる単語分割モデルの学習を行い、学習によって得られた単語分割モデルを単語分割モデル記憶部に記憶する単語境界学習部と、
入力層、中間層及び出力層を有し、中間層からの出力を入力層にも入力する再帰型ニューラルネットワークで表される単語Nグラムを、分割された単語のデータを教師データとして用いて学習し、単語Nグラム記憶部に記憶する単語Nグラム学習部と、
前記単語Nグラム記憶部に記憶されている再帰型ニューラルネットワークに単語のデータを入力し、中間層にて求められるデータを概念データとして求める概念データ算出部と、
前記概念データを出力する出力部と、
を備え、
前記単語分割部が、前記文字Nグラム学習部にて学習された文字Nグラムを用いた単語分割と前記単語境界学習部にて学習された単語分割モデルを用いた単語分割とを交互に行う処理と、前記単語Nグラム学習部が前記単語分割部にて分割された単語のデータを用いて単語Nグラムを学習する処理とを、所定の収束条件を満たすまで繰り返し行う情報処理装置。 - 前記再帰型ニューラルネットワークは、文を構成する1番目からN番目までの単語のデータを入力とし、N+1番目の単語を出力とする請求項1に記載の情報処理装置。
- 前記概念データに基づいて、単語どうしの類似度が所定の閾値より大きい単語どうしを同じグループにクラスタリングするクラスタリング部を備え、
前記出力部は、クラスタリングの結果を出力する請求項1または2に記載の情報処理装置。 - 前記クラスタリング部は、階層的にクラスタリングを行う請求項3に記載の情報処理装置。
- 前記単語分割部は、前記学習データが与えられたときに、文字コードに基づいて前記学習データの初期分割を行う請求項1〜4のいずれかに記載の情報処理装置。
- 情報処理装置によって、入力された学習データを単語分割し、分割された単語の概念を求める方法であって、
前記情報処理装置が、学習データとして文のデータを入力するステップと、
前記情報処理装置が、前記学習データに対して、文字Nグラムを用いた単語分割と単語分割モデルを用いた単語分割とを交互に行い、分割された単語のデータを教師データとして用いて、入力層、中間層及び出力層を有し、中間層からの出力を入力層にも入力する再帰型ニューラルネットワークで表される単語Nグラムを学習する処理を、所定の収束条件を満たすまで繰り返し行うステップと、
前記情報処理装置が、前記再帰型ニューラルネットワークに単語のデータを入力し、中間層にて求められるデータを概念データとして求めるステップと、
前記情報処理装置が、前記概念データを出力するステップと、
を備え、
前記単語Nグラムを学習するステップは、
前記情報処理装置が、文字Nグラムを用いて前記学習データの単語分割を行うステップと、
前記情報処理装置が、分割された単語のデータを教師データとして用いて、前記再帰型ニューラルネットワークで表される単語Nグラムの学習を行い、単語Nグラム記憶部に記憶するステップと、
前記情報処理装置が、分割された単語のデータに基づいて単語境界の認識を行う系列ラベリングによる単語分割モデルの学習を行い、学習によって得られた単語分割モデルを単語分割モデル記憶部に記憶するステップと、
前記情報処理装置が、前記単語分割モデルを用いて前記学習データの単語分割を行うステップと、
前記情報処理装置が、分割された単語のデータを教師データとして用いて、前記再帰型ニューラルネットワークで表される単語Nグラムの学習を行い、単語Nグラム記憶部に記憶するステップと、
前記情報処理装置が、分割された単語のデータに基づいて文字Nグラムの学習を行い、学習した文字Nグラムを文字Nグラム記憶部に記憶するステップと、
を有する情報処理方法。 - 入力された学習データを単語分割し、分割された単語の概念を求めるためのプログラムであって、コンピュータに、
学習データとして文のデータを入力するステップと、
前記学習データに対して、文字Nグラムを用いた単語分割と単語分割モデルを用いた単語分割とを交互に行い、分割された単語のデータを教師データとして用いて、入力層、中間層及び出力層を有し、中間層からの出力を入力層にも入力する再帰型ニューラルネットワークで表される単語Nグラムを学習する処理を、所定の収束条件を満たすまで繰り返し行うステップと、
前記再帰型ニューラルネットワークに単語のデータを入力し、中間層にて求められるデータを概念データとして求めるステップと、
前記概念データを出力するステップと、
を実行させ、
前記単語Nグラムを学習するステップにおいて、コンピュータに、
文字Nグラムを用いて前記学習データの単語分割を行うステップと、
分割された単語のデータを教師データとして用いて、前記再帰型ニューラルネットワークで表される単語Nグラムの学習を行い、単語Nグラム記憶部に記憶するステップと、
分割された単語のデータに基づいて単語境界の認識を行う系列ラベリングによる単語分割モデルの学習を行い、学習によって得られた単語分割モデルを単語分割モデル記憶部に記憶するステップと、
前記単語分割モデルを用いて前記学習データの単語分割を行うステップと、
分割された単語のデータを教師データとして用いて、前記再帰型ニューラルネットワークで表される単語Nグラムの学習を行い、単語Nグラム記憶部に記憶するステップと、
分割された単語のデータに基づいて文字Nグラムの学習を行い、学習した文字Nグラムを文字Nグラム記憶部に記憶するステップと、
を繰り返し実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014041983A JP6312467B2 (ja) | 2014-03-04 | 2014-03-04 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014041983A JP6312467B2 (ja) | 2014-03-04 | 2014-03-04 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015169951A true JP2015169951A (ja) | 2015-09-28 |
JP6312467B2 JP6312467B2 (ja) | 2018-04-18 |
Family
ID=54202683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014041983A Active JP6312467B2 (ja) | 2014-03-04 | 2014-03-04 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6312467B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107730002A (zh) * | 2017-10-13 | 2018-02-23 | 国网湖南省电力公司 | 一种通信网关机遥控参数智能模糊比对方法 |
JP2018533148A (ja) * | 2015-10-02 | 2018-11-08 | ネイバー コーポレーションNAVER Corporation | データのカテゴリ分類のための方法およびシステム |
JP2018195012A (ja) * | 2017-05-16 | 2018-12-06 | 富士通株式会社 | 学習プログラム、学習方法、学習装置、及び変換パラメータ製造方法 |
WO2018230551A1 (ja) * | 2017-06-16 | 2018-12-20 | 新日鉄住金ソリューションズ株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2019204362A (ja) * | 2018-05-24 | 2019-11-28 | Zホールディングス株式会社 | 判定装置、判定方法、判定プログラムおよびプログラムパラメータ |
JP2020113041A (ja) * | 2019-01-11 | 2020-07-27 | 株式会社東芝 | 学習装置、学習方法、プログラムおよび情報処理システム |
CN111639661A (zh) * | 2019-08-29 | 2020-09-08 | 上海卓繁信息技术股份有限公司 | 文本相似度判别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004272243A (ja) * | 2003-02-20 | 2004-09-30 | Sony Internatl Europ Gmbh | 音声認識方法 |
JP2010108239A (ja) * | 2008-10-30 | 2010-05-13 | Nippon Telegr & Teleph Corp <Ntt> | 顔文字検出装置、その方法、プログラム及び記録媒体 |
JP2010170252A (ja) * | 2009-01-21 | 2010-08-05 | Nippon Telegr & Teleph Corp <Ntt> | 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム |
JP2012146263A (ja) * | 2011-01-14 | 2012-08-02 | Nippon Telegr & Teleph Corp <Ntt> | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム |
-
2014
- 2014-03-04 JP JP2014041983A patent/JP6312467B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004272243A (ja) * | 2003-02-20 | 2004-09-30 | Sony Internatl Europ Gmbh | 音声認識方法 |
JP2010108239A (ja) * | 2008-10-30 | 2010-05-13 | Nippon Telegr & Teleph Corp <Ntt> | 顔文字検出装置、その方法、プログラム及び記録媒体 |
JP2010170252A (ja) * | 2009-01-21 | 2010-08-05 | Nippon Telegr & Teleph Corp <Ntt> | 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム |
JP2012146263A (ja) * | 2011-01-14 | 2012-08-02 | Nippon Telegr & Teleph Corp <Ntt> | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム |
Non-Patent Citations (4)
Title |
---|
ボッレーガラ ダヌシカ: "自然言語処理のための深層学習", 人工知能, vol. 第29巻第2号, JPN6018007741, 1 March 2014 (2014-03-01), JP, pages 195 - 201, ISSN: 0003751925 * |
久保 陽太郎: "音声認識のための深層学習", 人工知能, vol. 第29巻第1号, JPN6017024816, 1 January 2014 (2014-01-01), JP, pages 62 - 71, ISSN: 0003591791 * |
篠沢 佳久 外1名: "単語の連接情報を利用した語系列予測モデル", 電子情報通信学会技術研究報告, vol. 第106巻第79号, JPN6017024817, 19 May 2006 (2006-05-19), JP, pages 41 - 46, ISSN: 0003591792 * |
鶴見 美智子 外4名: "ニューラルネットワークの恒等写像学習を用いた完成空間の構築", 第57回(平成10年後期)全国大会講演論文集(2), JPN6017024818, 7 October 1998 (1998-10-07), JP, pages 2 - 120, ISSN: 0003591793 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018533148A (ja) * | 2015-10-02 | 2018-11-08 | ネイバー コーポレーションNAVER Corporation | データのカテゴリ分類のための方法およびシステム |
JP2018195012A (ja) * | 2017-05-16 | 2018-12-06 | 富士通株式会社 | 学習プログラム、学習方法、学習装置、及び変換パラメータ製造方法 |
CN110612524A (zh) * | 2017-06-16 | 2019-12-24 | 日铁系统集成株式会社 | 信息处理装置、信息处理方法以及程序 |
WO2018230551A1 (ja) * | 2017-06-16 | 2018-12-20 | 新日鉄住金ソリューションズ株式会社 | 情報処理装置、情報処理方法及びプログラム |
JPWO2018230551A1 (ja) * | 2017-06-16 | 2019-06-27 | 日鉄ソリューションズ株式会社 | 情報処理装置、情報処理方法及びプログラム |
US11386354B2 (en) | 2017-06-16 | 2022-07-12 | Ns Solutions Corporation | Information processing apparatus, information processing method, and program |
CN110612524B (zh) * | 2017-06-16 | 2023-11-10 | 日铁系统集成株式会社 | 信息处理装置、信息处理方法以及记录介质 |
CN107730002A (zh) * | 2017-10-13 | 2018-02-23 | 国网湖南省电力公司 | 一种通信网关机遥控参数智能模糊比对方法 |
CN107730002B (zh) * | 2017-10-13 | 2020-06-02 | 国网湖南省电力公司 | 一种通信网关机遥控参数智能模糊比对方法 |
JP2019204362A (ja) * | 2018-05-24 | 2019-11-28 | Zホールディングス株式会社 | 判定装置、判定方法、判定プログラムおよびプログラムパラメータ |
JP7058556B2 (ja) | 2018-05-24 | 2022-04-22 | ヤフー株式会社 | 判定装置、判定方法、および判定プログラム |
JP2020113041A (ja) * | 2019-01-11 | 2020-07-27 | 株式会社東芝 | 学習装置、学習方法、プログラムおよび情報処理システム |
CN111639661A (zh) * | 2019-08-29 | 2020-09-08 | 上海卓繁信息技术股份有限公司 | 文本相似度判别方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6312467B2 (ja) | 2018-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6312467B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6972265B2 (ja) | ポインタセンチネル混合アーキテクチャ | |
CN106997370B (zh) | 基于作者的文本分类和转换 | |
CN111079442B (zh) | 文档的向量化表示方法、装置和计算机设备 | |
KR102195223B1 (ko) | 전역적으로 노멀화된 신경 네트워크들 | |
US20190236135A1 (en) | Cross-lingual text classification | |
CN107301170B (zh) | 基于人工智能的切分语句的方法和装置 | |
US9633002B1 (en) | Systems and methods for coreference resolution using selective feature activation | |
JP7108675B2 (ja) | 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
BR112019004524B1 (pt) | Sistema de redes neurais, um ou mais meios de armazenamento legíveis por computador não transitório e método para gerar autorregressivamente uma sequência de saída de dados de áudio | |
US9613185B2 (en) | Influence filtering in graphical models | |
US11636341B2 (en) | Processing sequential interaction data | |
KR102573637B1 (ko) | 엔티티 링킹 방법, 장치, 전자 기기 및 기록 매체 | |
US20210035556A1 (en) | Fine-tuning language models for supervised learning tasks via dataset preprocessing | |
CN112906392B (zh) | 一种文本增强方法、文本分类方法及相关装置 | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
CN110023930B (zh) | 利用神经网络和在线学习的语言数据预测 | |
CN108304376B (zh) | 文本向量的确定方法、装置、存储介质及电子装置 | |
CN111046659B (zh) | 上下文信息生成方法、上下文信息生成装置及计算机可读记录介质 | |
US20180246856A1 (en) | Analysis method and analysis device | |
US20200279079A1 (en) | Predicting probability of occurrence of a string using sequence of vectors | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
US20210304056A1 (en) | Learning Parameter Sampling Configuration for Automated Machine Learning | |
CN116821299A (zh) | 智能问答方法、智能问答装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20151113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160720 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170512 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180306 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180320 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6312467 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |