JP2020016784A - 認識装置、認識方法及び認識プログラム - Google Patents
認識装置、認識方法及び認識プログラム Download PDFInfo
- Publication number
- JP2020016784A JP2020016784A JP2018140463A JP2018140463A JP2020016784A JP 2020016784 A JP2020016784 A JP 2020016784A JP 2018140463 A JP2018140463 A JP 2018140463A JP 2018140463 A JP2018140463 A JP 2018140463A JP 2020016784 A JP2020016784 A JP 2020016784A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- utterance
- text
- information
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 25
- 239000000284 extract Substances 0.000 claims description 13
- 230000015654 memory Effects 0.000 description 40
- 238000013528 artificial neural network Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000014102 seafood Nutrition 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000251511 Holothuroidea Species 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
まず、図1を参照して、実施形態に係るネットワークシステム1の構成について説明する。図1は、実施形態に係るネットワークシステム1の構成例を示す図である。図1に示すように、実施形態に係るネットワークシステム1には、端末装置10と、提供装置20と、認識装置100とが含まれる。端末装置10、提供装置20および認識装置100は、それぞれネットワークNと有線又は無線により接続される。
次に、図2を参照して、実施形態に係る認識処理の一例について説明する。図2は、実施形態に係る認識処理の一例を示す図である。
次に、図3を参照して、実施形態に係る認識装置100の構成例について説明する。図3は、実施形態に係る認識装置100の構成例を示す図である。図3に示すように、認識装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、認識装置100は、認識装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(液晶ディスプレイ等)を有してもよい。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワーク網と有線又は無線により接続され、ネットワーク網を介して、端末装置10および提供装置20との間で情報の送受信を行う。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図3に示すように、記憶部120は、クエリログ情報記憶部121と、音声認識モデル記憶部122とを有する。
図4は、実施形態に係るクエリログ情報記憶部121の一例を示す図である。クエリログ情報記憶部121は、利用者(例えば、ユーザ)によって入力されたテキストの履歴である履歴情報を記憶する。クエリログ情報記憶部121は、例えば、検索エンジンを提供する検索サービスの履歴情報を記憶する。例えば、履歴情報は、クエリログ情報記憶部121は、検索エンジンのクエリログを記憶する。
図3に戻ると、音声認識モデル記憶部122は、音声認識モデルを記憶する。例えば、音声認識モデル記憶部122は、音声情報からテキストを抽出するモデルを記憶する。また、例えば、音声認識モデル記憶部122は、クエリログに基づいて音声情報からテキストを抽出するモデルを記憶する。音声認識モデル記憶部122は、所定のサーバから受信された音声認識モデルを記憶する。
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、認識装置100内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
受信部131は、提供装置20から、利用者の発話を含む音声情報を受信する。一例では、提供装置20からクエリログを受信する。受信部131は、受信された音声情報を、記憶部120内の所定の記憶領域である音声情報記憶部(図示せず)に格納してもよい。
取得部132は、利用者の発話を含む音声情報を取得する。取得部132は、例えば、受信部131によって受信された音声情報を取得する。取得部132は、記憶部120内の所定の記憶領域である音声情報記憶部から音声情報を取得してもよい。
認識部133は、音声情報と、利用者によって入力されたテキストの履歴である履歴情報とを用いて、かかる音声情報に含まれる発話の認識を行う。例えば、認識部133は、音声情報に基づいて、履歴情報に含まれるテキストのうち音声情報に含まれる発話に対応する確度が高いテキストを特定し、特定したテキストに基づいて、かかる発話の認識結果を生成する。また、例えば、認識部133は、検索クエリの履歴を含む履歴情報を用いて、発話の認識を行う。一例では、検索クエリの履歴は、所定の検索エンジンのクエリログである。
生成部134は、利用者によって入力されたテキストの履歴である履歴情報に対応する記憶情報を生成する。例えば、生成部134は、履歴情報のテキストに対応する埋め込みベクトルを、記憶情報として生成する。生成部134は、生成された記憶情報を、音声認識モデルのメモリに格納する。その結果、生成された記憶情報は、メモリニューラルネットワークのネットワーク内に含まれることとなる。
学習部135は、ユーザの音声データを含む訓練データを用いて、音声認識モデルを学習する。学習部135は、例えば、受信部131によって受信された訓練データを用いて、音声認識モデルを学習する。
提供部136は、認識部133によって出力された音声認識結果を提供する。例えば、提供部136は、利用者の発話内容を示すテキストデータを、提供装置20に送信する。提供部136は、学習部135によって学習された音声認識モデルを、提供装置20に提供してもよい。
次に、実施形態に係る認識装置100による認識処理の手順について説明する。図5は、実施形態に係る認識装置100による認識処理手順を示すフローチャートである。
上述の実施形態に係る認識装置100は、上記の実施形態以外にも、種々の異なる形態で実施されてよい。そこで、以下では、上記の認識装置100の他の実施形態について説明する。
上記実施形態では、認識部133は、クエリログに基づいて音声情報からテキストを抽出するモデルを用いて、発話の認識を行っているが、これに限定されるものではない。認識部133は、音声情報から音声情報に含まれる発話のテキストを抽出するモデルを用いて、複数のテキストの候補を生成し、生成された複数のテキストと履歴情報との比較結果に基づいて、かかる複数のテキストの候補から、発話の認識結果となるテキストを選択してもよい。
認識部133は、利用者の発話と関連性を有する履歴情報を用いて、音声情報に含まれる発話の認識を行ってもよい。例えば、利用者の発話に関連するドメインの履歴情報を用いて、音声情報に含まれる発話の認識を行ってもよい。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の一部を手動的に行うこともできる。あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、上述してきた実施形態に係る認識装置100は、例えば図7に示すような構成のコンピュータ1000によって実現される。図7は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
上述してきたように、実施形態に係る認識装置100は、取得部132と、認識部133とを有する。取得部132は、利用者の発話を含む音声情報を取得する。認識部133は、音声情報と、利用者によって入力されたテキストの履歴である履歴情報とを用いて、かかる音声情報に含まれる発話の認識を行う。このため、認識装置100は、利用者によるテキストの入力履歴を用いて、音声認識の精度を向上させることができる。
10 端末装置
20 提供装置
100 認識装置
120 記憶部
121 クエリログ情報記憶部
122 音声認識モデル記憶部
130 制御部
131 受信部
132 取得部
133 認識部
134 生成部
135 学習部
136 提供部
Claims (10)
- 利用者の発話を含む音声情報を取得する取得部と、
前記音声情報と、利用者によって入力されたテキストの履歴である履歴情報とを用いて、当該音声情報に含まれる発話の認識を行う認識部と
を有することを特徴とする認識装置。 - 前記認識部は、
前記音声情報に基づいて、前記履歴情報に含まれるテキストのうち前記発話に対応する確度が高いテキストを特定し、特定したテキストに基づいて、前記発話の認識結果を生成する
ことを特徴とする請求項1に記載の認識装置。 - 前記認識部は、
検索クエリの履歴を含む前記履歴情報を用いて、前記発話の認識を行う
ことを特徴とする請求項1または2に記載の認識装置。 - 前記認識部は、
前記音声情報と、前記履歴情報に含まれるテキストとが入力された場合に、当該履歴情報に含まれるテキストに基づいて、前記音声情報に含まれる発話のテキストを出力するモデルを用いて、前記発話の認識を行う
ことを特徴とする請求項1〜3のうちいずれか1つに記載の認識装置。 - 前記認識部は、
前記モデルとして、前記履歴情報に含まれるテキストにうち前記音声情報に含まれる発話のテキストとして確度が高いテキストを、当該発話のテキストとして出力するモデルを用いて、前記発話の認識を行う
ことを特徴とする請求項4に記載の認識装置。 - 利用者の発話を含む音声情報と、当該音声情報を入力した際に出力させたい目標テキストを含む履歴情報とを入力した際に、当該目標テキストを出力するようにモデルの学習を行う学習部をさらに有し、
前記認識部は、
前記学習部により学習が行われたモデルを用いて、前記発話の認識を行う
ことを特徴とする請求項1〜5のうちいずれか1つに記載の認識装置。 - 前記学習部は、
不明瞭な発音を含む利用者の発話を含む音声情報と、当該音声情報を入力した際に出力させたい目標テキストを含む履歴情報とを入力した際に、当該目標テキストを出力するようにモデルの学習を行う
ことを特徴とする請求項6に記載の認識装置。 - 前記認識部は、
前記音声情報から当該音声情報に含まれる発話のテキストを抽出するモデルを用いて、複数のテキストの候補を生成し、生成された複数のテキストと前記履歴情報との比較結果に基づいて、当該複数のテキストの候補から、前記発話の認識結果となるテキストを選択する
ことを特徴とする請求項1〜4のうちいずれか1つに記載の認識装置。 - 認識装置が実行する方法であって、
利用者の発話を含む音声情報を取得する取得工程と、
前記音声情報と、利用者によって入力されたテキストの履歴である履歴情報とを用いて、当該音声情報に含まれる発話の認識を行う認識工程と
を含むことを特徴とする認識方法。 - 利用者の発話を含む音声情報を取得する取得手順と、
前記音声情報と、利用者によって入力されたテキストの履歴である履歴情報とを用いて、当該音声情報に含まれる発話の認識を行う認識手順と
をコンピュータに実行させるための認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018140463A JP7034027B2 (ja) | 2018-07-26 | 2018-07-26 | 認識装置、認識方法及び認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018140463A JP7034027B2 (ja) | 2018-07-26 | 2018-07-26 | 認識装置、認識方法及び認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020016784A true JP2020016784A (ja) | 2020-01-30 |
JP7034027B2 JP7034027B2 (ja) | 2022-03-11 |
Family
ID=69579537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018140463A Active JP7034027B2 (ja) | 2018-07-26 | 2018-07-26 | 認識装置、認識方法及び認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7034027B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022035183A1 (ko) * | 2020-08-12 | 2022-02-17 | 삼성전자 주식회사 | 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법 |
JP2022531987A (ja) * | 2020-02-18 | 2022-07-12 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体 |
WO2023079875A1 (ja) * | 2021-11-04 | 2023-05-11 | 株式会社Nttドコモ | 情報処理装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090228280A1 (en) * | 2008-03-05 | 2009-09-10 | Microsoft Corporation | Text-based search query facilitated speech recognition |
JP2011513795A (ja) * | 2008-03-07 | 2011-04-28 | グーグル・インコーポレーテッド | 文脈に基づく音声認識文法選択 |
US20170103324A1 (en) * | 2015-10-13 | 2017-04-13 | Facebook, Inc. | Generating responses using memory networks |
WO2018009351A1 (en) * | 2016-07-08 | 2018-01-11 | Google Llc | Follow-up voice query prediction |
WO2018043137A1 (ja) * | 2016-08-31 | 2018-03-08 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
-
2018
- 2018-07-26 JP JP2018140463A patent/JP7034027B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090228280A1 (en) * | 2008-03-05 | 2009-09-10 | Microsoft Corporation | Text-based search query facilitated speech recognition |
JP2011513795A (ja) * | 2008-03-07 | 2011-04-28 | グーグル・インコーポレーテッド | 文脈に基づく音声認識文法選択 |
US20170103324A1 (en) * | 2015-10-13 | 2017-04-13 | Facebook, Inc. | Generating responses using memory networks |
WO2018009351A1 (en) * | 2016-07-08 | 2018-01-11 | Google Llc | Follow-up voice query prediction |
WO2018043137A1 (ja) * | 2016-08-31 | 2018-03-08 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022531987A (ja) * | 2020-02-18 | 2022-07-12 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体 |
US11978447B2 (en) | 2020-02-18 | 2024-05-07 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speech interaction method, apparatus, device and computer storage medium |
WO2022035183A1 (ko) * | 2020-08-12 | 2022-02-17 | 삼성전자 주식회사 | 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법 |
US11984126B2 (en) | 2020-08-12 | 2024-05-14 | Samsung Electronics Co., Ltd. | Device for recognizing speech input of user and operating method thereof |
WO2023079875A1 (ja) * | 2021-11-04 | 2023-05-11 | 株式会社Nttドコモ | 情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP7034027B2 (ja) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10192545B2 (en) | Language modeling based on spoken and unspeakable corpuses | |
CN107590135B (zh) | 自动翻译方法、设备和系统 | |
US10176804B2 (en) | Analyzing textual data | |
CN111710333B (zh) | 用于生成语音转录的方法和系统 | |
KR102582291B1 (ko) | 감정 정보 기반의 음성 합성 방법 및 장치 | |
CN107039040B (zh) | 语音识别系统 | |
KR102390940B1 (ko) | 음성 인식을 위한 컨텍스트 바이어싱 | |
EP3032532B1 (en) | Disambiguating heteronyms in speech synthesis | |
US11074909B2 (en) | Device for recognizing speech input from user and operating method thereof | |
JP5257071B2 (ja) | 類似度計算装置及び情報検索装置 | |
KR20210146368A (ko) | 숫자 시퀀스에 대한 종단 간 자동 음성 인식 | |
US10366690B1 (en) | Speech recognition entity resolution | |
US10482876B2 (en) | Hierarchical speech recognition decoder | |
US11741950B2 (en) | Method and apparatus with speech processing | |
JP6370962B1 (ja) | 生成装置、生成方法および生成プログラム | |
US10909972B2 (en) | Spoken language understanding using dynamic vocabulary | |
JP7034027B2 (ja) | 認識装置、認識方法及び認識プログラム | |
KR20210001937A (ko) | 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법 | |
CN104464734A (zh) | 声音同时处理装置、方法及程序 | |
CN110647613A (zh) | 一种课件构建方法、装置、服务器和存储介质 | |
KR20180033875A (ko) | 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스 | |
US12073825B2 (en) | Method and apparatus for speech recognition | |
JP2024038566A (ja) | キーワード検出装置、キーワード検出方法、およびキーワード検出プログラム | |
US11482214B1 (en) | Hypothesis generation and selection for inverse text normalization for search | |
WO2023205132A1 (en) | Machine learning based context aware correction for user input recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210803 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211004 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7034027 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |