JP7034027B2 - 認識装置、認識方法及び認識プログラム - Google Patents
認識装置、認識方法及び認識プログラム Download PDFInfo
- Publication number
- JP7034027B2 JP7034027B2 JP2018140463A JP2018140463A JP7034027B2 JP 7034027 B2 JP7034027 B2 JP 7034027B2 JP 2018140463 A JP2018140463 A JP 2018140463A JP 2018140463 A JP2018140463 A JP 2018140463A JP 7034027 B2 JP7034027 B2 JP 7034027B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- text
- utterance
- voice
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 29
- 230000015654 memory Effects 0.000 claims description 51
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 15
- 238000010586 diagram Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 241000257465 Echinoidea Species 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、図1を参照して、実施形態に係るネットワークシステム1の構成について説明する。図1は、実施形態に係るネットワークシステム1の構成例を示す図である。図1に示すように、実施形態に係るネットワークシステム1には、端末装置10と、提供装置20と、認識装置100とが含まれる。端末装置10、提供装置20および認識装置100は、それぞれネットワークNと有線又は無線により接続される。
次に、図2を参照して、実施形態に係る認識処理の一例について説明する。図2は、実施形態に係る認識処理の一例を示す図である。
次に、図3を参照して、実施形態に係る認識装置100の構成例について説明する。図3は、実施形態に係る認識装置100の構成例を示す図である。図3に示すように、認識装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、認識装置100は、認識装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(液晶ディスプレイ等)を有してもよい。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワーク網と有線又は無線により接続され、ネットワーク網を介して、端末装置10および提供装置20との間で情報の送受信を行う。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図3に示すように、記憶部120は、クエリログ情報記憶部121と、音声認識モデル記憶部122とを有する。
図4は、実施形態に係るクエリログ情報記憶部121の一例を示す図である。クエリログ情報記憶部121は、利用者(例えば、ユーザ)によって入力されたテキストの履歴である履歴情報を記憶する。クエリログ情報記憶部121は、例えば、検索エンジンを提供する検索サービスの履歴情報を記憶する。例えば、履歴情報は、クエリログ情報記憶部121は、検索エンジンのクエリログを記憶する。
図3に戻ると、音声認識モデル記憶部122は、音声認識モデルを記憶する。例えば、音声認識モデル記憶部122は、音声情報からテキストを抽出するモデルを記憶する。また、例えば、音声認識モデル記憶部122は、クエリログに基づいて音声情報からテキストを抽出するモデルを記憶する。音声認識モデル記憶部122は、所定のサーバから受信された音声認識モデルを記憶する。
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、認識装置100内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
受信部131は、提供装置20から、利用者の発話を含む音声情報を受信する。一例では、提供装置20からクエリログを受信する。受信部131は、受信された音声情報を、記憶部120内の所定の記憶領域である音声情報記憶部(図示せず)に格納してもよい。
取得部132は、利用者の発話を含む音声情報を取得する。取得部132は、例えば、受信部131によって受信された音声情報を取得する。取得部132は、記憶部120内の所定の記憶領域である音声情報記憶部から音声情報を取得してもよい。
認識部133は、音声情報と、利用者によって入力されたテキストの履歴である履歴情報とを用いて、かかる音声情報に含まれる発話の認識を行う。例えば、認識部133は、音声情報に基づいて、履歴情報に含まれるテキストのうち音声情報に含まれる発話に対応する確度が高いテキストを特定し、特定したテキストに基づいて、かかる発話の認識結果を生成する。また、例えば、認識部133は、検索クエリの履歴を含む履歴情報を用いて、発話の認識を行う。一例では、検索クエリの履歴は、所定の検索エンジンのクエリログである。
生成部134は、利用者によって入力されたテキストの履歴である履歴情報に対応する記憶情報を生成する。例えば、生成部134は、履歴情報のテキストに対応する埋め込みベクトルを、記憶情報として生成する。生成部134は、生成された記憶情報を、音声認識モデルのメモリに格納する。その結果、生成された記憶情報は、メモリニューラルネットワークのネットワーク内に含まれることとなる。
学習部135は、ユーザの音声データを含む訓練データを用いて、音声認識モデルを学習する。学習部135は、例えば、受信部131によって受信された訓練データを用いて、音声認識モデルを学習する。
提供部136は、認識部133によって出力された音声認識結果を提供する。例えば、提供部136は、利用者の発話内容を示すテキストデータを、提供装置20に送信する。提供部136は、学習部135によって学習された音声認識モデルを、提供装置20に提供してもよい。
次に、実施形態に係る認識装置100による認識処理の手順について説明する。図5は、実施形態に係る認識装置100による認識処理手順を示すフローチャートである。
上述の実施形態に係る認識装置100は、上記の実施形態以外にも、種々の異なる形態で実施されてよい。そこで、以下では、上記の認識装置100の他の実施形態について説明する。
上記実施形態では、認識部133は、クエリログに基づいて音声情報からテキストを抽出するモデルを用いて、発話の認識を行っているが、これに限定されるものではない。認識部133は、音声情報から音声情報に含まれる発話のテキストを抽出するモデルを用いて、複数のテキストの候補を生成し、生成された複数のテキストと履歴情報との比較結果に基づいて、かかる複数のテキストの候補から、発話の認識結果となるテキストを選択してもよい。
認識部133は、利用者の発話と関連性を有する履歴情報を用いて、音声情報に含まれる発話の認識を行ってもよい。例えば、利用者の発話に関連するドメインの履歴情報を用いて、音声情報に含まれる発話の認識を行ってもよい。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の一部を手動的に行うこともできる。あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、上述してきた実施形態に係る認識装置100は、例えば図7に示すような構成のコンピュータ1000によって実現される。図7は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
上述してきたように、実施形態に係る認識装置100は、取得部132と、認識部133とを有する。取得部132は、利用者の発話を含む音声情報を取得する。認識部133は、音声情報と、利用者によって入力されたテキストの履歴である履歴情報とを用いて、かかる音声情報に含まれる発話の認識を行う。このため、認識装置100は、利用者によるテキストの入力履歴を用いて、音声認識の精度を向上させることができる。
10 端末装置
20 提供装置
100 認識装置
120 記憶部
121 クエリログ情報記憶部
122 音声認識モデル記憶部
130 制御部
131 受信部
132 取得部
133 認識部
134 生成部
135 学習部
136 提供部
Claims (9)
- 利用者の発話を含む音声情報を取得する取得部と、
前記音声情報を、利用者によって入力されたテキストの履歴である履歴情報に含まれるテキストを記憶するメモリを含むメモリニューラルネットワークに基づくモデルであって、ラベルに対応付けられた発話に加えて、当該メモリに記憶されたテキストを用いて学習されたモデルに与えることによって、当該音声情報に含まれる発話の認識を行う認識部と
を有することを特徴とする認識装置。 - 前記認識部は、
前記音声情報に基づいて、前記履歴情報に含まれるテキストのうち前記発話に対応する確度が高いテキストを特定し、特定したテキストに基づいて、前記発話の認識結果を生成する
ことを特徴とする請求項1に記載の認識装置。 - 前記認識部は、
検索クエリの履歴を含む前記履歴情報を用いて、前記発話の認識を行う
ことを特徴とする請求項1または2に記載の認識装置。 - 前記認識部は、
前記モデルとして、前記履歴情報に含まれるテキストにうち前記音声情報に含まれる発話のテキストとして確度が高いテキストを、当該発話のテキストとして出力するモデルを用いて、前記発話の認識を行う
ことを特徴とする請求項1に記載の認識装置。 - 利用者の発話を含む音声情報と、当該音声情報を入力した際に出力させたい目標テキストを含む履歴情報とを入力した際に、当該目標テキストを出力するようにモデルの学習を行う学習部をさらに有し、
前記認識部は、
前記学習部により学習が行われたモデルを用いて、前記発話の認識を行う
ことを特徴とする請求項1~4のうちいずれか1つに記載の認識装置。 - 前記学習部は、
不明瞭な発音を含む利用者の発話を含む音声情報と、当該音声情報を入力した際に出力させたい目標テキストを含む履歴情報とを入力した際に、当該目標テキストを出力するようにモデルの学習を行う
ことを特徴とする請求項5に記載の認識装置。 - 前記認識部は、
前記音声情報から当該音声情報に含まれる発話のテキストを抽出するモデルを用いて、複数のテキストの候補を生成し、生成された複数のテキストと前記履歴情報との比較結果に基づいて、当該複数のテキストの候補から、前記発話の認識結果となるテキストを選択する
ことを特徴とする請求項1~3のうちいずれか1つに記載の認識装置。 - 認識装置が実行する方法であって、
利用者の発話を含む音声情報を取得する取得工程と、
前記音声情報を、利用者によって入力されたテキストの履歴である履歴情報に含まれるテキストを記憶するメモリを含むメモリニューラルネットワークに基づくモデルであって、ラベルに対応付けられた発話に加えて、当該メモリに記憶されたテキストを用いて学習されたモデルに与えることによって、当該音声情報に含まれる発話の認識を行う認識工程と
を含むことを特徴とする認識方法。 - 利用者の発話を含む音声情報を取得する取得手順と、
前記音声情報を、利用者によって入力されたテキストの履歴である履歴情報に含まれるテキストを記憶するメモリを含むメモリニューラルネットワークに基づくモデルであって、ラベルに対応付けられた発話に加えて、当該メモリに記憶されたテキストを用いて学習されたモデルに与えることによって、当該音声情報に含まれる発話の認識を行う認識手順と
をコンピュータに実行させるための認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018140463A JP7034027B2 (ja) | 2018-07-26 | 2018-07-26 | 認識装置、認識方法及び認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018140463A JP7034027B2 (ja) | 2018-07-26 | 2018-07-26 | 認識装置、認識方法及び認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020016784A JP2020016784A (ja) | 2020-01-30 |
JP7034027B2 true JP7034027B2 (ja) | 2022-03-11 |
Family
ID=69579537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018140463A Active JP7034027B2 (ja) | 2018-07-26 | 2018-07-26 | 認識装置、認識方法及び認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7034027B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111341309A (zh) * | 2020-02-18 | 2020-06-26 | 百度在线网络技术(北京)有限公司 | 一种语音交互方法、装置、设备和计算机存储介质 |
KR20220020723A (ko) | 2020-08-12 | 2022-02-21 | 삼성전자주식회사 | 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법 |
JPWO2023079875A1 (ja) * | 2021-11-04 | 2023-05-11 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090228280A1 (en) | 2008-03-05 | 2009-09-10 | Microsoft Corporation | Text-based search query facilitated speech recognition |
JP2011513795A (ja) | 2008-03-07 | 2011-04-28 | グーグル・インコーポレーテッド | 文脈に基づく音声認識文法選択 |
US20170103324A1 (en) | 2015-10-13 | 2017-04-13 | Facebook, Inc. | Generating responses using memory networks |
WO2018009351A1 (en) | 2016-07-08 | 2018-01-11 | Google Llc | Follow-up voice query prediction |
WO2018043137A1 (ja) | 2016-08-31 | 2018-03-08 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
-
2018
- 2018-07-26 JP JP2018140463A patent/JP7034027B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090228280A1 (en) | 2008-03-05 | 2009-09-10 | Microsoft Corporation | Text-based search query facilitated speech recognition |
JP2011513795A (ja) | 2008-03-07 | 2011-04-28 | グーグル・インコーポレーテッド | 文脈に基づく音声認識文法選択 |
US20170103324A1 (en) | 2015-10-13 | 2017-04-13 | Facebook, Inc. | Generating responses using memory networks |
WO2018009351A1 (en) | 2016-07-08 | 2018-01-11 | Google Llc | Follow-up voice query prediction |
WO2018043137A1 (ja) | 2016-08-31 | 2018-03-08 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2020016784A (ja) | 2020-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107590135B (zh) | 自动翻译方法、设备和系统 | |
US20200380987A1 (en) | User recognition for speech processing systems | |
KR102582291B1 (ko) | 감정 정보 기반의 음성 합성 방법 및 장치 | |
US10027662B1 (en) | Dynamic user authentication | |
US20230317074A1 (en) | Contextual voice user interface | |
CN111710333B (zh) | 用于生成语音转录的方法和系统 | |
US11074909B2 (en) | Device for recognizing speech input from user and operating method thereof | |
KR102390940B1 (ko) | 음성 인식을 위한 컨텍스트 바이어싱 | |
KR20210146368A (ko) | 숫자 시퀀스에 대한 종단 간 자동 음성 인식 | |
WO2017127296A1 (en) | Analyzing textual data | |
US10482876B2 (en) | Hierarchical speech recognition decoder | |
US11741950B2 (en) | Method and apparatus with speech processing | |
JP7034027B2 (ja) | 認識装置、認識方法及び認識プログラム | |
US10685644B2 (en) | Method and system for text-to-speech synthesis | |
JP6370962B1 (ja) | 生成装置、生成方法および生成プログラム | |
KR20210001937A (ko) | 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법 | |
KR20190059185A (ko) | 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템 | |
KR20180033875A (ko) | 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스 | |
US11961507B2 (en) | Systems and methods for improving content discovery in response to a voice query using a recognition rate which depends on detected trigger terms | |
US12073825B2 (en) | Method and apparatus for speech recognition | |
JP2024038566A (ja) | キーワード検出装置、キーワード検出方法、およびキーワード検出プログラム | |
US20220028368A1 (en) | Information processing device, information processing method, and program | |
CN110895938B (zh) | 语音校正系统及语音校正方法 | |
JP2020030379A (ja) | 認識結果補正装置、認識結果補正方法、およびプログラム | |
CN111816164B (en) | Method and apparatus for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210803 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211004 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7034027 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |