JP6973192B2 - 言語モデルを利用する装置、方法及びプログラム - Google Patents
言語モデルを利用する装置、方法及びプログラム Download PDFInfo
- Publication number
- JP6973192B2 JP6973192B2 JP2018041781A JP2018041781A JP6973192B2 JP 6973192 B2 JP6973192 B2 JP 6973192B2 JP 2018041781 A JP2018041781 A JP 2018041781A JP 2018041781 A JP2018041781 A JP 2018041781A JP 6973192 B2 JP6973192 B2 JP 6973192B2
- Authority
- JP
- Japan
- Prior art keywords
- symbol
- conversion unit
- input
- auxiliary information
- output state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title description 20
- 238000006243 chemical reaction Methods 0.000 claims description 110
- 230000006870 function Effects 0.000 claims description 13
- 230000004044 response Effects 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 description 13
- 230000006978 adaptation Effects 0.000 description 11
- 238000009826 distribution Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000006854 communication Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
後述される実施例による言語モデルは、単語を所定次元のベクトルで表現した単語ベクトルw(t)を入力とし、補助情報を利用して次の単語の予測結果^w(t+1)を出力するものである。例えば、音声認識において、時刻tに発話された単語w(t)の次に発話される可能性の高い単語^w(t+1)を予測する場合等に用いられる。本発明の言語モデルの主な特徴は、補助情報(トピック、文脈、話者等)に依存するニューラルネットワークが複数の分解された隠れ層から構成されることと、分解された隠れ層の各々において、異なる補助情報(γn)に基づく変換が行われることである。
〔実施例1:推定装置〕
まず、図1を参照して、本発明の一実施例による言語モデルを利用した推定装置を説明する。図1は、本発明の一実施例による推定装置を示すブロック図である。
〔実施例2:言語モデル学習装置〕
次に、図2を参照して、本発明の一実施例による上述した言語モデルを学習するための言語モデル学習装置を説明する。ここで、言語モデル学習装置200における学習対象となるパラメータは、第1変換部110、第2変換部120、第3変換部130及び第4変換部140において用いられる行列及びバイアスベクトルの要素である。図2は、本発明の一実施例による言語モデル学習装置を示すブロック図である。
200 言語モデル学習装置
110、210 第1変換部
120、220 第2変換部
130、230 第3変換部
140、240 第4変換部
150、250 第5変換部
260 パラメータ更新部
Claims (10)
- 入力された記号を変換し、第1出力状態を得る第1変換部と、
前記第1出力状態を変換し、第2出力状態を得る第2変換部と、
入力された補助情報を変換し、変換後の補助情報を得る第3変換部と、
前記変換後の補助情報と前記第2出力状態とを変換し、複数の出力状態を得る第4変換部と、
前記複数の出力状態から前記入力された記号に後続する記号を予測する第5変換部と、
を有する装置であって、
前記第4変換部は、前記第2出力状態と前記変換後の補助情報とを入力とする複数の隠れ層を有し、各隠れ層に入力される前記変換後の補助情報は互いに異なる装置。 - 入力された学習用記号を変換し、第1出力状態を得る第1変換部と、
前記第1出力状態を変換し、第2出力状態を得る第2変換部と、
前記学習用記号に対応して入力された補助情報を変換し、変換後の補助情報を得る第3変換部と、
前記変換後の補助情報と前記第2出力状態とを変換し、複数の出力状態を得る第4変換部と、
前記複数の出力状態から前記入力された学習用記号に後続する記号を予測する第5変換部と、
前記入力された学習用記号に対応する正解出力記号と前記予測された後続する記号を比較し、比較結果に応じて前記第1変換部、前記第2変換部、前記第3変換部または前記第4変換部のパラメータを更新するパラメータ更新部と、
を有する装置であって、
前記第4変換部は、前記第2出力状態と前記変換後の補助情報とを入力とする複数の隠れ層を有し、各隠れ層に入力される前記変換後の補助情報は互いに異なる装置。 - 前記補助情報は、前記後続する記号の選択に影響する前記入力された記号以外の情報を含む情報から抽出されたものである、請求項1記載の装置。
- 前記補助情報は、前記入力された記号を含む、該入力された記号よりも時系列的に前の記号列のトピックと、該記号列の文脈と、該記号列の獲得環境とのうち少なくとも1以上の情報を含む、請求項1又は3記載の装置。
- プロセッサが、
入力された記号を変換し、第1出力状態を得るステップと、
前記第1出力状態を変換し、第2出力状態を得るステップと、
入力された補助情報を変換し、変換後の補助情報を得るステップと、
前記変換後の補助情報と前記第2出力状態とを変換し、複数の出力状態を得るステップと、
前記複数の出力状態から前記入力された記号に後続する記号を予測するステップと、
を実行する方法であって、
前記複数の出力状態を得るステップでは、前記プロセッサが前記第2出力状態と前記変換後の補助情報とを入力とする複数の隠れ層を用い、各隠れ層に入力される前記変換後の補助情報は互いに異なる方法。 - プロセッサが、
入力された学習用記号を変換し、第1出力状態を得るステップと、
前記第1出力状態を変換し、第2出力状態を得るステップと、
前記学習用記号に対応して入力された補助情報を変換し、変換後の補助情報を得るステップと、
前記変換後の補助情報と前記第2出力状態とを変換し、複数の出力状態を得るステップと、
前記複数の出力状態から前記入力された学習用記号に後続する記号を予測するステップと、
前記プロセッサが、前記入力された学習用記号に対応する正解出力記号と前記予測された後続する記号とを比較し、比較結果に応じてパラメータを更新するステップと、
を実行する方法であって、
前記複数の出力状態を得るステップでは、前記プロセッサが前記第2出力状態と前記変換後の補助情報とを入力とする複数の隠れ層を用い、各隠れ層に入力される前記変換後の補助情報は互いに異なる方法。 - 請求項1、3、4何れか一項記載の装置の各部としてプロセッサを機能させるプログラム。
- 前記補助情報は、前記後続する記号の選択に影響する前記入力された学習用記号以外の情報を含む情報から抽出されたものである、請求項2記載の装置。
- 前記補助情報は、前記入力された学習用記号を含む、該入力された学習用記号よりも時系列的に前の学習用記号列のトピックと、該学習用記号列の文脈と、該学習用記号列の獲得環境とのうち少なくとも1以上の情報を含む、請求項2又は8記載の装置。
- 請求項2、8、9何れか一項記載の装置の各部としてプロセッサを機能させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018041781A JP6973192B2 (ja) | 2018-03-08 | 2018-03-08 | 言語モデルを利用する装置、方法及びプログラム |
PCT/JP2019/005871 WO2019171925A1 (ja) | 2018-03-08 | 2019-02-18 | 言語モデルを利用する装置、方法及びプログラム |
US16/976,692 US20210049324A1 (en) | 2018-03-08 | 2019-02-18 | Apparatus, method, and program for utilizing language model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018041781A JP6973192B2 (ja) | 2018-03-08 | 2018-03-08 | 言語モデルを利用する装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019159464A JP2019159464A (ja) | 2019-09-19 |
JP6973192B2 true JP6973192B2 (ja) | 2021-11-24 |
Family
ID=67846596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018041781A Active JP6973192B2 (ja) | 2018-03-08 | 2018-03-08 | 言語モデルを利用する装置、方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210049324A1 (ja) |
JP (1) | JP6973192B2 (ja) |
WO (1) | WO2019171925A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210032105A (ko) * | 2019-09-16 | 2021-03-24 | 한국전자통신연구원 | 랭킹 기반 네트워크 임베딩을 이용한 군집화 방법 및 장치 |
JP2021076623A (ja) * | 2019-11-05 | 2021-05-20 | TXP Medical株式会社 | 音声入力支援システム |
US11804214B2 (en) * | 2021-02-26 | 2023-10-31 | Walmart Apollo, Llc | Methods and apparatuses for discriminative pre-training for low resource title compression |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9558743B2 (en) * | 2013-03-15 | 2017-01-31 | Google Inc. | Integration of semantic context information |
US9824684B2 (en) * | 2014-11-13 | 2017-11-21 | Microsoft Technology Licensing, Llc | Prediction-based sequence recognition |
EP3259688A4 (en) * | 2015-02-19 | 2018-12-12 | Digital Reasoning Systems, Inc. | Systems and methods for neural language modeling |
JP2017016384A (ja) * | 2015-07-01 | 2017-01-19 | 日本放送協会 | 混合係数パラメータ学習装置、混合生起確率算出装置、及び、これらのプログラム |
US10366158B2 (en) * | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) * | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
JP6637078B2 (ja) * | 2016-02-02 | 2020-01-29 | 日本電信電話株式会社 | 音響モデル学習装置、音響モデル学習方法及びプログラム |
GB201611380D0 (en) * | 2016-06-30 | 2016-08-17 | Microsoft Technology Licensing Llc | Artificial neural network with side input for language modelling and prediction |
-
2018
- 2018-03-08 JP JP2018041781A patent/JP6973192B2/ja active Active
-
2019
- 2019-02-18 WO PCT/JP2019/005871 patent/WO2019171925A1/ja active Application Filing
- 2019-02-18 US US16/976,692 patent/US20210049324A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210049324A1 (en) | 2021-02-18 |
WO2019171925A1 (ja) | 2019-09-12 |
JP2019159464A (ja) | 2019-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240161732A1 (en) | Multi-dialect and multilingual speech recognition | |
CN112712804B (zh) | 语音识别方法、系统、介质、计算机设备、终端及应用 | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
US10019438B2 (en) | External word embedding neural network language models | |
CN111145718B (zh) | 一种基于自注意力机制的中文普通话字音转换方法 | |
JP7490804B2 (ja) | 非同期デコーダでエンド・ツー・エンド音声認識をストリーミングするためのシステムおよび方法 | |
JP5982297B2 (ja) | 音声認識装置、音響モデル学習装置、その方法及びプログラム | |
CN111179916B (zh) | 重打分模型训练方法、语音识别方法及相关装置 | |
CN111354333B (zh) | 一种基于自注意力的汉语韵律层级预测方法及系统 | |
JP7072178B2 (ja) | 自然言語処理のための装置、方法及びプログラム | |
JP7266683B2 (ja) | 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム | |
JP6973192B2 (ja) | 言語モデルを利用する装置、方法及びプログラム | |
CN111081230A (zh) | 语音识别方法和设备 | |
US20230096805A1 (en) | Contrastive Siamese Network for Semi-supervised Speech Recognition | |
US20230237993A1 (en) | Systems and Methods for Training Dual-Mode Machine-Learned Speech Recognition Models | |
WO2019138897A1 (ja) | 学習装置および方法、並びにプログラム | |
Granell et al. | Multimodal crowdsourcing for transcribing handwritten documents | |
JP6810580B2 (ja) | 言語モデル学習装置およびそのプログラム | |
CN114528387A (zh) | 基于对话流自举的深度学习对话策略模型构建方法和系统 | |
WO2021229643A1 (ja) | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム | |
CN111026848B (zh) | 一种基于相似上下文和强化学习的中文词向量生成方法 | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP2021039220A (ja) | 音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラム | |
US20220122586A1 (en) | Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization | |
WO2020162240A1 (ja) | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210521 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211005 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211018 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6973192 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |