JP7173149B2 - 生成方法、生成プログラムおよび情報処理装置 - Google Patents
生成方法、生成プログラムおよび情報処理装置 Download PDFInfo
- Publication number
- JP7173149B2 JP7173149B2 JP2020539961A JP2020539961A JP7173149B2 JP 7173149 B2 JP7173149 B2 JP 7173149B2 JP 2020539961 A JP2020539961 A JP 2020539961A JP 2020539961 A JP2020539961 A JP 2020539961A JP 7173149 B2 JP7173149 B2 JP 7173149B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- words
- information
- word
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 34
- 230000010365 information processing Effects 0.000 title description 80
- 239000013598 vector Substances 0.000 claims description 307
- 238000012545 processing Methods 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 30
- 238000006243 chemical reaction Methods 0.000 claims description 26
- 230000009466 transformation Effects 0.000 claims description 15
- 238000013459 approach Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims 3
- 230000003068 static effect Effects 0.000 description 80
- 230000006835 compression Effects 0.000 description 29
- 238000007906 compression Methods 0.000 description 29
- 238000013519 translation Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 17
- 238000012549 training Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
110 通信部
120 入力部
130 表示部
150 記憶部
150a 第1ベクトルテーブル
150b 第2ベクトルテーブル
150c 教師データテーブル
150d コード変換テーブル
150e 辞書情報
150f RNNデータ
150g 入力文データ
150h 出力文データ
160 制御部
160a 受付部
160b ベクトル特定部
160c 生成部
160d 翻訳部
Claims (3)
- コンピュータが、
第1のテキスト情報と、第2のテキスト情報とを受け付け、
前記第1のテキスト情報に含まれる単語のうち、出現頻度が基準未満の単語と、前記第2のテキスト情報に含まれる単語のうち、出現頻度が基準未満である単語とを抽出し、
出現頻度が基準未満の複数の単語であって、前記複数の単語の意味がそれぞれ同じとなる前記複数の単語に対して、一つの属性を割り当てた情報を記憶する記憶部を参照して、抽出した単語に対応付けられた属性を特定し、
単語の属性に応じたベクトル情報を該属性に対応付けて記憶する記憶部であって、同一の属性に属する複数の単語に対して同一のベクトルを記憶し、また、出現頻度が基準以上の単語に応じたベクトル情報を記憶する前記記憶部を参照して、前記第1のテキスト情報から抽出された単語の属性に対応付けられた第1ベクトル情報と、前記第2のテキスト情報から抽出された単語の属性に対応付けられた第2ベクトル情報とを特定し、
前記記憶部を参照して、前記第1のテキスト情報に含まれる単語のうち、出現頻度が基準以上となる単語の第3ベクトル情報と、前記第2のテキスト情報に含まれる単語のうち、出現頻度が基準以上となる単語の第4ベクトル情報とを特定し、
前記第1ベクトル情報および前記第3ベクトル情報を、変換モデルに入力した際に出力されるベクトル情報が、前記第2ベクトル情報および前記第4ベクトル情報に近づくように、前記変換モデルのパラメータを学習することで、前記変換モデルを生成する
処理を実行することを特徴とする生成方法。 - コンピュータに、
第1のテキスト情報と、第2のテキスト情報とを受け付け、
前記第1のテキスト情報に含まれる単語のうち、出現頻度が基準未満の単語と、前記第2のテキスト情報に含まれる単語のうち、出現頻度が基準未満である単語とを抽出し、
出現頻度が基準未満の複数の単語であって、前記複数の単語の意味がそれぞれ同じとなる前記複数の単語に対して、一つの属性を割り当てた情報を記憶する記憶部を参照して、抽出した単語に対応付けられた属性を特定し、
単語の属性に応じたベクトル情報を該属性に対応付けて記憶する記憶部であって、同一の属性に属する複数の単語に対して同一のベクトルを記憶し、また、出現頻度が基準以上の単語に応じたベクトル情報を記憶する前記記憶部を参照して、前記第1のテキスト情報から抽出された単語の属性に対応付けられた第1ベクトル情報と、前記第2のテキスト情報から抽出された単語の属性に対応付けられた第2ベクトル情報とを特定し、
前記記憶部を参照して、前記第1のテキスト情報に含まれる単語のうち、出現頻度が基準以上となる単語の第3ベクトル情報と、前記第2のテキスト情報に含まれる単語のうち、出現頻度が基準以上となる単語の第4ベクトル情報とを特定し、
前記第1ベクトル情報および前記第3ベクトル情報を、変換モデルに入力した際に出力されるベクトル情報が、前記第2ベクトル情報および前記第4ベクトル情報に近づくように、前記変換モデルのパラメータを学習することで、前記変換モデルを生成する
処理を実行させることを特徴とする生成プログラム。 - 第1のテキスト情報と、第2のテキスト情報とを受け付ける受付部と、
前記第1のテキスト情報に含まれる単語のうち、出現頻度が基準未満の単語と、前記第2のテキスト情報に含まれる単語のうち、出現頻度が基準未満である単語とを抽出し、
出現頻度が基準未満の複数の単語であって、前記複数の単語の意味がそれぞれ同じとなる前記複数の単語に対して、一つの属性を割り当てた情報を記憶する記憶部を参照して、抽出した単語に対応付けられた属性を特定し、単語の属性に応じたベクトル情報を該属性に対応付けて記憶する記憶部であって、同一の属性に属する複数の単語に対して同一のベクトルを記憶し、また、出現頻度が基準以上の単語に応じたベクトル情報を記憶する前記記憶部を参照して、前記第1のテキスト情報から抽出された単語の属性に対応付けられた第1ベクトル情報と、前記第2のテキスト情報から抽出された単語の属性に対応付けられた第2ベクトル情報とを特定し、前記記憶部を参照して、前記第1のテキスト情報に含まれる単語のうち、出現頻度が基準以上となる単語の第3ベクトル情報と、前記第2のテキスト情報に含まれる単語のうち、出現頻度が基準以上となる単語の第4ベクトル情報とを特定し、前記第1ベクトル情報および前記第3ベクトル情報を、変換モデルに入力した際に出力されるベクトル情報が、前記第2ベクトル情報および前記第4ベクトル情報に近づくように、前記変換モデルのパラメータを学習することで、前記変換モデルを生成する生成処理部と
を有することを特徴とする情報処理装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/032206 WO2020044509A1 (ja) | 2018-08-30 | 2018-08-30 | 生成方法、生成プログラムおよび情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020044509A1 JPWO2020044509A1 (ja) | 2021-08-10 |
JP7173149B2 true JP7173149B2 (ja) | 2022-11-16 |
Family
ID=69643992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020539961A Active JP7173149B2 (ja) | 2018-08-30 | 2018-08-30 | 生成方法、生成プログラムおよび情報処理装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210192152A1 (ja) |
EP (1) | EP3846070A4 (ja) |
JP (1) | JP7173149B2 (ja) |
AU (1) | AU2018438250B2 (ja) |
WO (1) | WO2020044509A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271497B (zh) * | 2018-08-31 | 2021-10-26 | 华南理工大学 | 一种基于词向量的事件驱动服务匹配方法 |
JP7280227B2 (ja) * | 2020-08-31 | 2023-05-23 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP7239531B2 (ja) * | 2020-08-31 | 2023-03-14 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5835893A (en) * | 1996-02-15 | 1998-11-10 | Atr Interpreting Telecommunications Research Labs | Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity |
JP3996886B2 (ja) | 2003-10-31 | 2007-10-24 | 株式会社国際電気通信基礎技術研究所 | 対訳対抽出装置及びそのためのコンピュータプログラム |
JP6641857B2 (ja) * | 2015-10-05 | 2020-02-05 | 富士通株式会社 | 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置 |
WO2018003457A1 (ja) * | 2016-06-30 | 2018-01-04 | パナソニックIpマネジメント株式会社 | 情報処理装置、時系列データの情報処理方法、及びプログラム |
CN107870901B (zh) * | 2016-09-27 | 2023-05-12 | 松下知识产权经营株式会社 | 从翻译源原文生成相似文的方法、记录介质、装置以及系统 |
CN107357775A (zh) * | 2017-06-05 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 基于人工智能的循环神经网络的文本纠错方法及装置 |
CN107292528A (zh) * | 2017-06-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 车险风险预测方法、装置及服务器 |
KR102449842B1 (ko) * | 2017-11-30 | 2022-09-30 | 삼성전자주식회사 | 언어 모델 학습 방법 및 이를 사용하는 장치 |
-
2018
- 2018-08-30 AU AU2018438250A patent/AU2018438250B2/en active Active
- 2018-08-30 WO PCT/JP2018/032206 patent/WO2020044509A1/ja unknown
- 2018-08-30 EP EP18932179.7A patent/EP3846070A4/en not_active Withdrawn
- 2018-08-30 JP JP2020539961A patent/JP7173149B2/ja active Active
-
2021
- 2021-02-18 US US17/178,877 patent/US20210192152A1/en not_active Abandoned
Non-Patent Citations (2)
Title |
---|
増田 嵩志、鶴岡 慶雅,ニューラルネットワーク日英機械翻訳における品詞情報の利用,言語処理学会第22回年次大会 発表論文集 [online],日本,言語処理学会,2016年02月29日,pp.294-297 |
小松 広弥 外3名,単語分散表現のshift-reduce型構文解析への利用,情報処理学会 研究報告 音声言語情報処理(SLP) 2015-SLP-106 [online] ,日本,情報処理学会,2015年05月18日,pp.1-8 |
Also Published As
Publication number | Publication date |
---|---|
EP3846070A1 (en) | 2021-07-07 |
EP3846070A4 (en) | 2021-09-08 |
AU2018438250B2 (en) | 2022-04-14 |
US20210192152A1 (en) | 2021-06-24 |
JPWO2020044509A1 (ja) | 2021-08-10 |
AU2018438250A1 (en) | 2021-03-18 |
WO2020044509A1 (ja) | 2020-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210004686A1 (en) | Fixed point integer implementations for neural networks | |
US11657799B2 (en) | Pre-training with alignments for recurrent neural network transducer based end-to-end speech recognition | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7173149B2 (ja) | 生成方法、生成プログラムおよび情報処理装置 | |
US20090192781A1 (en) | System and method of providing machine translation from a source language to a target language | |
CN104156349B (zh) | 基于统计词典模型的未登录词发现和分词系统及方法 | |
JP2019153023A (ja) | 疑似対訳データ生成装置、機械翻訳処理装置、および疑似対訳データ生成方法 | |
JP6862914B2 (ja) | 解析プログラム、解析方法および解析装置 | |
CA3162745A1 (en) | Method of detecting speech keyword based on neutral network, device and system | |
US20220012520A1 (en) | Electronic device and control method therefor | |
TW201935460A (zh) | 語音識別裝置以及語音識別方法 | |
JP2022121456A (ja) | 処理プログラム、処理方法および情報処理装置 | |
US20180276568A1 (en) | Machine learning method and machine learning apparatus | |
US20210142006A1 (en) | Generating method, non-transitory computer readable recording medium, and information processing apparatus | |
CN112836523B (zh) | 一种单词翻译方法、装置、设备和一种可读存储介质 | |
JP7230915B2 (ja) | 学習方法、翻訳方法、学習プログラム、翻訳プログラムおよび情報処理装置 | |
US11604931B2 (en) | Electronic device and controlling method of electronic device | |
CN116306612A (zh) | 一种词句生成方法及相关设备 | |
JP6972711B2 (ja) | 語義ベクトル生成プログラム、語義ベクトル生成方法および語義ベクトル生成装置 | |
JPWO2018066083A1 (ja) | 学習プログラム、情報処理装置および学習方法 | |
JP7435740B2 (ja) | 音声認識装置、制御方法、及びプログラム | |
US20190317990A1 (en) | Non-transitory computer readable recording medium, identification method, generation method, and information processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210218 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221017 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7173149 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |