JP2017116714A - 音声入力装置、その方法及びプログラム - Google Patents
音声入力装置、その方法及びプログラム Download PDFInfo
- Publication number
- JP2017116714A JP2017116714A JP2015251507A JP2015251507A JP2017116714A JP 2017116714 A JP2017116714 A JP 2017116714A JP 2015251507 A JP2015251507 A JP 2015251507A JP 2015251507 A JP2015251507 A JP 2015251507A JP 2017116714 A JP2017116714 A JP 2017116714A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- phrase
- recognition result
- hierarchical
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】音声入力装置は、階層的フレーズ木に基づき、入力音声に対して音声認識を行い得られるK個の音声認識結果候補の中から一つの音声認識結果k^を決定する認識結果決定部と、音声認識結果k^に含まれるフレーズの中から階層的フレーズ木の最も深い階層に位置するフレーズfを特定し、そのフレーズfから階層的フレーズ木の根元に至る途中にある各ノードのフレーズを取得し、第n階層において取得したフレーズを第n入力として決定する入力決定部とを含む。
【選択図】図3
Description
本実施形態では、階層的フレーズ木と大語彙連続音声認識システムを利用した音声によるカラム入力を実現する。本実施形態のポイントは階層的フレーズ木と大語彙連続音声認識システムを組み合わせる点にある。まず、階層的フレーズ木では、子ノードは、必ず、1つの親ノードを持つ(言い換えると、子ノードは複数の親ノードを持たない)ため、「深い階層のフレーズが決まれば、浅い階層のフレーズを一意に特定できる」。そのため、第n階層のカラムの入力値から根元までは一意に遡ることができる。本実施形態では、階層的フレーズ木のこの性質を利用する。例えば、前述の発注システムの例であれば、深い階層の「さんま」が決まれば、浅い階層の「鮮魚」や「食品」を一意に特定可能である。さらに、階層的フレーズ木の性質を大語彙連続音声認識システムと組み合わせることで、利便性に優れたカラム入力を実現する。具体的には、大語彙連続音声認識システムにより、あらゆる階層のフレーズの音声による入力をはじめから許容し、入力されたフレーズに応じて、浅い階層を含めた各カラムのフレーズを特定する仕組みを実現する。例えば前述の入力システムであれば、「さんま」と発話するのみで、第一カラム「食品」、第二カラム「鮮魚」、第三カラム「さんま」が埋まる仕組みである。さらに本実施形態では、階層的フレーズ木と大語彙連続音声認識の相性を上げるアルゴリズムを導入する。大語彙連続音声認識システムは公知の通り100%正確に音声認識できるわけではなく、音声認識誤りを起こしてしまう。そこで、大語彙連続音声認識システム自体が音声認識誤りを起こした場合でも、フレーズの入力がうまく動作するようにする。
本実施形態には、階層的フレーズ木と大語彙連続音声認識システムが必要となる。例えば、階層的フレーズ木は電子データとして保存されているものであり、各フレーズに対して、階層の深さ、親階層のフレーズ、子階層のフレーズ群が分かるものを指す。また、大語彙連続音声認識システムは、階層的フレーズ木の全てのフレーズを認識可能な状態であれば、任意のものを使用できる。例えば、参考文献1や参考文献2に書かれたような技術を利用した大語彙連続音声認識システムを使用できる。
(参考文献1)鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄,“IT Text 音声認識システム”,オーム社出版局,2001年.
(参考文献2)荒木雅弘,“イラストで学ぶ音声認識”,講談社,2015年1月.
以下では、階層的フレーズ木と大語彙連続音声性認識システムがあるとして、ある音声が入力された場合のカラムの入力の決定方法についての流れを述べる。
図3は第一実施形態に係る音声入力装置100の機能ブロック図を、図4はその処理フローを示す。音声入力装置100は、大語彙連続音声認識部101、大語彙連続音声認識システム記憶部102、カラム入力情報決定部103及び階層的フレーズ木記憶部120を含む。さらに、カラム入力情報決定部103は、認識結果決定部110及びカラム入力決定部130を含む。
入力:入力音声、階層的フレーズ木、大語彙連続音声認識システム
出力:各階層のカラムの入力情報
入力:入力音声、大語彙連続音声認識システム
出力:K個の音声認識結果候補
大語彙連続音声認識部101は、入力音声に対して大語彙連続音声認識システムで音声認識を行い(S101)、K個の音声認識結果候補を出力する。なお、Kは1以上の整数の何れかである。
入力:K個の音声認識結果候補、階層的フレーズ木
出力:各カラムの入力情報
カラム入力情報決定部103は、K個の音声認識結果候補の情報と、階層的フレーズ木に基づいて各カラムの入力情報を決定し(S103)、出力する。以下、カラム入力情報決定部103に含まれる認識結果決定部110とカラム入力決定部130の処理内容を説明する。
入力:K個の音声認識結果候補、階層的フレーズ木
出力:音声認識結果
認識結果決定部110は、階層的フレーズ木に基づき、入力音声に対してK個の音声認識結果候補の中から一つの最も信頼できる音声認識結果k^を決定し(S110)、出力する。
入力:音声認識結果、階層的フレーズ木
出力:各カラムの入力情報
カラム入力決定部130は、認識結果と階層的フレーズ木に基づき、各カラムに入る情報を補完して各カラムの入力値を決定し(S120)、補間後の各カラムの入力情報を出力する。カラム入力決定部130の具体的な流れを述べる。
以上の構成により、第n-1階層、第n-2階層、…、第1階層のカラムを入力せずに第n階層のカラムを入力を行うことができ、同時に第n-1階層、第n-2階層、…、第1階層のカラムの入力値を取得することができる。よって、第一カラムから人手で順番に指定したりすることなく、入力したいフレーズ群を即座に入力可能な利便性の高い入力方式を作成できる。
本実施形態の音声入力装置100は、大語彙連続音声認識部101、大語彙連続音声認識システム記憶部102を含むが、別装置として構成してもよい。その場合、音声入力装置100は、K個の音声認識結果候補を入力とし、カラム入力情報決定部103において、本実施形態と同様の処理を行う。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (8)
- 複数のフレーズ群が、あらかじめ階層木構造を持っており、階層ごとにカテゴリが決まっているものを階層的フレーズ木とし、階層的フレーズ木の第n階層のフレーズ群が第n入力に対応し、
階層的フレーズ木に基づき、入力音声に対して音声認識を行い得られるK個の音声認識結果候補の中から一つの音声認識結果k^を決定する認識結果決定部と、
前記音声認識結果k^に含まれるフレーズの中から前記階層的フレーズ木の最も深い階層に位置するフレーズfを特定し、そのフレーズfから前記階層的フレーズ木の根元に至る途中にある各ノードのフレーズを取得し、第n階層において取得したフレーズを第n入力として決定する入力決定部とを含む、
音声入力装置。 - 請求項1の音声入力装置であって、
k=1,2,…,Kとし、前記認識結果決定部は、各音声認識結果候補kに前記階層的フレーズ木のフレーズが何個含まれているかカウントして第一カウント値Nkを求め、前記第一カウント値Nkが2未満のとき、第二カウント値Mk=0とし、前記第一カウント値Nkが2以上のとき、前記各音声認識結果候補kに含まれるフレームの中の、最も深い階層に位置するフレーズを基準として、フレーズ間の関係が階層的フレーズ木の木構造に合致しないフレーズの個数をカウントして第二カウント値Mkを求め、第一カウント値Nkと前記第二カウント値Mkとの差分Nk-Mkが最大となる音声認識結果候補を選択し、これを前記音声認識結果k^とする、
音声入力装置。 - 請求項1または請求項2の音声入力装置であって、
入力音声に対して音声認識を行い得られるK個の音声認識結果候補には、音声認識時のスコアが高い順に順位づけされた順位が付与されているものとし、
前記認識結果決定部は、前記差分Nk-Mkが同じ音声認識結果候補が複数存在する場合には、音声認識時のスコアが高いものを前記音声認識結果k^とする、
音声入力装置。 - 請求項1から請求項3の何れかの音声入力装置であって、
前記入力決定部は、前記音声認識結果k^に含まれるフレーズの中から前記階層的フレーズ木の最も深い階層に位置するフレーズfを特定する際に、最も深い階層に位置するフレーズが複数個ある場合には、その中で最も後に発話されたフレーズをフレーズfとして特定する、
音声入力装置。 - 複数のフレーズ群が、あらかじめ階層木構造を持っており、階層ごとにカテゴリが決まっているものを階層的フレーズ木とし、階層的フレーズ木の第n階層のフレーズ群が第n入力に対応し、
認識結果決定部が、階層的フレーズ木に基づき、入力音声に対して音声認識を行い得られるK個の音声認識結果候補の中から一つの音声認識結果k^を決定する認識結果決定ステップと、
入力決定部が、前記音声認識結果k^に含まれるフレーズの中から前記階層的フレーズ木の最も深い階層に位置するフレーズfを特定し、そのフレーズfから前記階層的フレーズ木の根元に至る途中にある各ノードのフレーズを取得し、第n階層において取得したフレーズを第n入力として決定する入力決定ステップとを含む、
音声入力方法。 - 請求項5の音声入力方法であって、
k=1,2,…,Kとし、前記認識結果決定ステップは、各音声認識結果候補kに前記階層的フレーズ木のフレーズが何個含まれているかカウントして第一カウント値Nkを求め、前記第一カウント値Nkが2未満のとき、第二カウント値Mk=0とし、前記第一カウント値Nkが2以上のとき、前記各音声認識結果候補kに含まれるフレームの中の、最も深い階層に位置するフレーズを基準として、フレーズ間の関係が階層的フレーズ木の木構造に合致しないフレーズの個数をカウントして第二カウント値Mkを求め、第一カウント値Nkと前記第二カウント値Mkとの差分Nk-Mkが最大となる音声認識結果候補を選択し、これを前記音声認識結果k^とする、
音声入力方法。 - 請求項5または請求項6の音声入力方法であって、
入力音声に対して音声認識を行い得られるK個の音声認識結果候補には、音声認識時のスコアが高い順に順位づけされた順位が付与されているものとし、
前記認識結果決定ステップは、前記差分Nk-Mkが同じ音声認識結果候補が複数存在する場合には、音声認識時のスコアが高いものを前記音声認識結果k^とする、
音声入力方法。 - 請求項1から請求項4の何れかの音声入力装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015251507A JP6367786B2 (ja) | 2015-12-24 | 2015-12-24 | 音声入力装置、その方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015251507A JP6367786B2 (ja) | 2015-12-24 | 2015-12-24 | 音声入力装置、その方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017116714A true JP2017116714A (ja) | 2017-06-29 |
JP6367786B2 JP6367786B2 (ja) | 2018-08-01 |
Family
ID=59234038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015251507A Active JP6367786B2 (ja) | 2015-12-24 | 2015-12-24 | 音声入力装置、その方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6367786B2 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03153300A (ja) * | 1989-11-10 | 1991-07-01 | Nippon Telegr & Teleph Corp <Ntt> | 音声入力装置 |
JPH0855128A (ja) * | 1994-08-10 | 1996-02-27 | Nippon Telegr & Teleph Corp <Ntt> | 階層単語確定処理方法およびこの方法を実施する装置 |
JPH08202387A (ja) * | 1995-01-30 | 1996-08-09 | Fujitsu Ten Ltd | 音声認識装置 |
JPH10312193A (ja) * | 1997-05-12 | 1998-11-24 | Nissan Motor Co Ltd | 音声入力装置 |
JP2004245938A (ja) * | 2003-02-12 | 2004-09-02 | Fujitsu Ten Ltd | 音声認識装置及びプログラム |
US7027987B1 (en) * | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
-
2015
- 2015-12-24 JP JP2015251507A patent/JP6367786B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03153300A (ja) * | 1989-11-10 | 1991-07-01 | Nippon Telegr & Teleph Corp <Ntt> | 音声入力装置 |
JPH0855128A (ja) * | 1994-08-10 | 1996-02-27 | Nippon Telegr & Teleph Corp <Ntt> | 階層単語確定処理方法およびこの方法を実施する装置 |
JPH08202387A (ja) * | 1995-01-30 | 1996-08-09 | Fujitsu Ten Ltd | 音声認識装置 |
JPH10312193A (ja) * | 1997-05-12 | 1998-11-24 | Nissan Motor Co Ltd | 音声入力装置 |
US7027987B1 (en) * | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
JP2004245938A (ja) * | 2003-02-12 | 2004-09-02 | Fujitsu Ten Ltd | 音声認識装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6367786B2 (ja) | 2018-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11604956B2 (en) | Sequence-to-sequence prediction using a neural network model | |
US11366866B2 (en) | Geographical knowledge graph | |
KR101778679B1 (ko) | 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템 | |
JP2019526142A (ja) | 検索語句の誤り訂正方法および装置 | |
CN111444320A (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
JP2015201185A (ja) | 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体 | |
US20220043978A1 (en) | Automatic formulation of data science problem statements | |
CN112905735A (zh) | 用于自然语言处理的方法和设备 | |
CN109241243B (zh) | 候选文档排序方法及装置 | |
CN112732870B (zh) | 基于词向量的搜索方法、装置、设备及存储介质 | |
US10353936B2 (en) | Natural language interpretation of hierarchical data | |
US11475054B2 (en) | Language detection of user input text for online gaming | |
US11734322B2 (en) | Enhanced intent matching using keyword-based word mover's distance | |
CN113688313A (zh) | 一种预测模型的训练方法、信息推送的方法及装置 | |
US20230044152A1 (en) | System and method for multi-modal transformer-based catagorization | |
KR20210060897A (ko) | 음성 처리 방법 및 장치 | |
KR20210064344A (ko) | 코드 분류를 위한 하이브리드 머신러닝 모델 | |
CN113010640A (zh) | 一种业务执行的方法及装置 | |
US9053087B2 (en) | Automatic semantic evaluation of speech recognition results | |
JP5980520B2 (ja) | 効率的にクエリを処理する方法及び装置 | |
US10032204B2 (en) | System and method for synthetic ideation | |
JP5975938B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
CN114490926A (zh) | 一种相似问题的确定方法、装置、存储介质及终端 | |
RU2586249C2 (ru) | Способ обработки поискового запроса и сервер | |
JP7055764B2 (ja) | 対話制御システム、対話制御方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170727 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180529 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180705 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6367786 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |