JP2020148814A - 音声認識支援装置、音声認識支援方法及び音声認識支援プログラム - Google Patents
音声認識支援装置、音声認識支援方法及び音声認識支援プログラム Download PDFInfo
- Publication number
- JP2020148814A JP2020148814A JP2019043691A JP2019043691A JP2020148814A JP 2020148814 A JP2020148814 A JP 2020148814A JP 2019043691 A JP2019043691 A JP 2019043691A JP 2019043691 A JP2019043691 A JP 2019043691A JP 2020148814 A JP2020148814 A JP 2020148814A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- text
- original
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
そこで、本発明は、音声認識後のテキストにおける要修正部分を素早く発見することを目的とする。
図1に沿って、音声認識支援装置1の構成を説明する。音声認識支援装置1は、一般的なコンピュータであり、中央制御装置11、マウス、キーボード等の入力装置12、ディスプレイ、スピーカ等の出力装置13、主記憶装置14、補助記憶装置15及びマイクロフォン16を備える。これらは、バスで相互に接続されている。補助記憶装置15は、修正履歴情報31及び音声認識用辞書32(いずれも詳細後記)を格納している。
“音声”とは、発話者の声帯の振動を示す時間軸の波形(声紋)である。発話者は、奇声、悲鳴、嘆息等意味のない音声を発することもあるが、本実施形態での音声は、多くの場合、人間の思考、事実等を表現している。音声認識支援装置1は、音声の波形をアナログ情報のまま、又は、デジタル情報に変換したうえで記憶し、また、処理の対象とする。
“変換”とは、音声認識支援装置1が音声をテキストに置換することである。一般に、変換は、“音声認識”とも呼ばれる。
“加工”とは、音声認識支援装置1が音声の波形の一部を変更することである。
“修正”とは、音声認識支援装置1がユーザの指示に従いテキストの一部を変更することである。
“注意部分”とは、変換後のテキストのうち、過去において他のテキストに修正された履歴を有する部分である。
ユーザは、あいまい部分を修正することもあるし、注意部分を修正することもあるし、その他の部分を修正することもある。
図2(a)は、あいまい部分の検出方法を説明する図である。音声認識支援装置1は、マイクロフォン16(図1)から元音声2aを取得する。“元”は、“加工の前”を意味する。音声認識支援装置1は、元音声2aのコピーを複数(図2では2個)作成する。
図2(b)は、あいまい部分の意義を説明する図である。音声の波形は多次元ベクトルとして表現できる。つまり、音声の波形は、多次元空間に点として描画することができる。以降では、説明を単純化するために、多次元空間のうち最も単純な2次元平面を例として挙げる。音声認識支援装置1は、多くの人間が“せいしん”と発話した音声の例を2次元平面に点として描画する。すると多くの点は、2次元平面のある領域に集まる。音声認識支援装置1は、これらの点を含むクラスタ8aを作成する。
図3は、修正履歴情報31の一例である。修正履歴情報31においては、修正前欄101に記憶された修正前テキストに関連付けて、修正後欄102には修正後テキストが記憶されている。
修正前欄101の修正前テキストは、修正前のテキストである。修正前のテキストは、音声認識支援装置1が誤認識(誤変換)した結果である。
修正後欄102の修正後テキストは、修正後のテキストである。ユーザは、音声認識支援装置1が提案した修正後のテキストの候補のうちからあるものを選択する場合もあり、直接修正後のテキストを入力する場合もある。ユーザが修正前のテキストを削除した後、テキストを入力しない場合、修正後欄102には“(削除)”が記憶される。
図4は、音声認識用辞書32の一例である。音声認識用辞書32においては、音声欄111に記憶された音声に関連付けて、テキスト欄112にはテキストが、読み欄113には読みが記憶されている。
音声欄111の音声は、前記した音声である。
テキスト欄112のテキストは、前記したテキストである。テキストは、同音異義の複数の漢字、片仮名、英文字、記号等である。
読み欄113の読みは、人間がその音声を試聴した場合どのように聞こえるかを示す“発音記号”であり、ここではひらがなである。
図5は、処理手順のフローチャートである。説明の途中で適宜図6〜図9を参照する。
ステップS201において、音声認識支援装置1の音声取得部21は、元音声2a(図2(a))を取得する。具体的には、音声取得部21は、マイクロフォン16を介して発話者の音声を取得する。
ステップS202において、音声認識支援装置1の音声加工部22は、元音声2aをコピーする。具体的には、音声加工部22は、ステップS201において取得した元音声のコピーをn(n=2、3、・・・)個作成する。説明の単純化のため、n=2であるとして以降の説明を続ける。
〈処理1〉音声加工部22は、元音声から、所定の高周波成分を削除する。
〈処理2〉音声加工部22は、元音声から、所定の低周波成分を削除する。
〈処理3〉音声加工部22は、元音声に所定の環境音を付加する。所定の環境音とは、例えば、発話者の環境に特有な、工場雑音、路上雑音、オフィス雑音等である。
〈処理4〉音声加工部22は、元音声を時間軸方向に伸長又は圧縮する(音声の速度を変える)。
第2に、音声加工部22は、元音声の他方のコピーに対して前記の処理1〜4のうち、ステップS203の“第1”の処理以外の処理(図2(a)の処理3c)を施し、加工音声4cを作成する。加工音声4cの波形は、元音声2aの波形に比して、僅かに異なっている。また、加工音声4cの波形は、加工音声4bの波形に比しても、僅かに異なっている。
第2に、音声認識部23は、ステップS204の処理と同様に、ステップS203の“第2”において作成した加工音声4cを加工テキスト6cに変換する。図6の加工テキスト6cは、このときの変換の結果である。
第2に、あいまい部分抽出部24は、元テキスト6a(図6)と加工テキスト6c(図6)とを比較し、その差分を取得する。
第2に、あいまい部分抽出部24は、ステップS206の“第2”において取得した差分をあいまい部分として抽出する。図7の加工テキスト6cでは、あいまい部分に下線が施されている。
・あいまい部分抽出部24は、テキスト“精神”の読み“せいしん”の一部を入れ替えることによって、例えば、読み“せいひん”を作成する。そして、あいまい部分抽出部24は、音声認識用辞書32(図4)から、読み“せいひん”に対応するテキスト“製品”及び“清貧”等を取得する。
その後処理手順を終了する。
前記では、あいまい部分抽出部24は、元テキストと加工テキストの差分を取得するに際し、文字(文字コード)が僅かでも異なる部分を抽出した。このような方法は、比較結果を“同一”又は“異なる”の2値で判断するものである。しかしながら、あいまい部分抽出部24は、比較対象である単語(変換単位)を任意の方法でベクトル値(Word2Vec等)に変換し、さらに任意の方法でベクトル値同士の類似度(余弦類似度等)を算出してもよい。すると、2つの単語の差分(あいまいさの度合い)が、ある正規化された範囲を連続的に変化するスカラ―値として表現されることになる。あいまい部分抽出部24は、類似度に対して所定の閾値を適用して、あいまい部分を抽出する。このとき、あいまい部分抽出部24は、閾値を変化させることによって、例えば“製造”と“製作”とを同じものと判断することも、異なるものと判断することもできる。
テキスト修正部26は、ステップS213の“第2”において、修正履歴情報31のレコードを作成することによって、修正履歴情報31はより充実し、ステップS209において注意部分抽出部25はより的確な注意部分を抽出できるようになる。
テキスト修正部26は、適宜のタイミングで、音声認識用辞書32(図4)のテキスト及び読みの組合せと、音声との対応関係を見直してもよい。例えば、ユーザが読み“せいしん”のテキストを読み“せいひん”のテキストに修正する回数が所定の閾値に達した場合、読み“せいしん”に対応する音声を読み“せいひん”に対応する音声に入れ替えてもよい。
音声加工部22は、例えば以下のように複数の加工パタンm(m=1、2、3、・・・)を準備しておく。
〈加工パタンm〉音声加工部22は、音声の波形から、mx〜(m+1)xまでの範囲の周波数成分を削除する。ここで、xは、周波数の帯域の幅を示す定数である。
本実施形態の音声認識支援装置の効果は以下の通りである。
(1)音声認識支援装置は、僅かな波形の相違によってテキストが変わり得るあいまい部分を抽出することができる。
(2)音声認識支援装置は、過去においてユーザが頻繁に修正した注意部分を抽出することができる。
(3)音声認識支援装置は、修正後のテキストの候補を表示することができる。
(4)音声認識支援装置は、音声認識部を冗長に準備する必要がない。
(5)音声認識支援装置は、単純な方法で元音声を加工することができる。
2a 元音声
4b、4c 加工音声
6a 元テキスト
6b、6c 加工テキスト
11 中央制御装置
12 入力装置
13 出力装置
14 主記憶装置
15 補助記憶装置
16 マイクロフォン
21 音声取得部
22 音声加工部
23 音声認識部
24 あいまい部分抽出部
25 注意部分抽出部
26 テキスト修正部
27 表示処理部
31 修正履歴情報
32 音声認識用辞書
Claims (7)
- 元音声を取得する音声取得部と、
前記元音声に加工を加えて加工音声を作成する音声加工部と、
前記元音声を元テキストに変換するとともに、前記加工音声を加工テキストに変換する音声認識部と、
前記元テキストと前記加工テキストとの差分をあいまい部分として抽出するあいまい部分抽出部と、
を備えることを特徴とする音声認識支援装置。 - ユーザの修正履歴に基づいて、前記元テキストから注意部分を抽出する注意部分抽出部と、
前記抽出した注意部分を、前記抽出したあいまい部分と同時に出力装置に表示する表示処理部を備えること、
を特徴とする請求項1に記載の音声認識支援装置。 - 前記あいまい部分抽出部は、
前記抽出したあいまい部分に対応する修正候補を取得し、
前記注意部分抽出部は、
前記抽出した注意部分に対応する修正候補を取得し、
前記表示処理部は、
前記修正候補を、対応するあいまい部分及び注意部分に関連付けて表示すること、
を特徴とする請求項2に記載の音声認識支援装置。 - 前記音声認識支援装置は、
前記音声認識部を1つだけ備え、
前記音声認識部は、
前記元音声及び1又は複数の前記加工音声を前記元テキスト及び1又は複数の前記加工テキストに変換すること、
を特徴とする請求項3に記載の音声認識支援装置。 - 前記音声加工部は、
前記元音声に対して周波数変換を行うことによって、又は、前記元音声に対して環境音を付加することによって前記加工音声を作成すること、
を特徴とする請求項4に記載の音声認識支援装置。 - 音声認識支援装置の音声取得部は、
元音声を取得し、
前記音声認識支援装置の音声加工部は、
前記元音声に加工を加えて加工音声を作成し、
前記音声認識支援装置の音声認識部は、
前記元音声を元テキストに変換するとともに、前記加工音声を加工テキストに変換し、
前記音声認識支援装置のあいまい部分抽出部は、
前記元テキストと前記加工テキストとの差分をあいまい部分として抽出すること、
を特徴とする音声認識支援装置の音声認識支援方法。 - 音声認識支援装置の音声取得部に対し、
元音声を取得する処理を実行させ、
前記音声認識支援装置の音声加工部に対し、
前記元音声に加工を加えて加工音声を作成する処理を実行させ、
前記音声認識支援装置の音声認識部に対し、
前記元音声を元テキストに変換するとともに、前記加工音声を加工テキストに変換する処理を実行させ、
前記音声認識支援装置のあいまい部分抽出部に対し、
前記元テキストと前記加工テキストとの差分をあいまい部分として抽出する処理を実行させること、
を特徴とする音声認識支援装置を機能させるための音声認識支援プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019043691A JP7096634B2 (ja) | 2019-03-11 | 2019-03-11 | 音声認識支援装置、音声認識支援方法及び音声認識支援プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019043691A JP7096634B2 (ja) | 2019-03-11 | 2019-03-11 | 音声認識支援装置、音声認識支援方法及び音声認識支援プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020148814A true JP2020148814A (ja) | 2020-09-17 |
JP7096634B2 JP7096634B2 (ja) | 2022-07-06 |
Family
ID=72431937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019043691A Active JP7096634B2 (ja) | 2019-03-11 | 2019-03-11 | 音声認識支援装置、音声認識支援方法及び音声認識支援プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7096634B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003280678A (ja) * | 2002-03-20 | 2003-10-02 | Asahi Kasei Corp | 音声認識装置 |
JP2003316386A (ja) * | 2002-04-24 | 2003-11-07 | Toshiba Corp | 音声認識方法および音声認識装置および音声認識プログラム |
WO2007080886A1 (ja) * | 2006-01-11 | 2007-07-19 | Nec Corporation | 音声認識装置、音声認識方法、および音声認識プログラム、ならびに妨害軽減装置、妨害軽減方法、および妨害軽減プログラム |
JP2011002656A (ja) * | 2009-06-18 | 2011-01-06 | Nec Corp | 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム |
JP2012063545A (ja) * | 2010-09-15 | 2012-03-29 | Ntt Docomo Inc | 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム |
-
2019
- 2019-03-11 JP JP2019043691A patent/JP7096634B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003280678A (ja) * | 2002-03-20 | 2003-10-02 | Asahi Kasei Corp | 音声認識装置 |
JP2003316386A (ja) * | 2002-04-24 | 2003-11-07 | Toshiba Corp | 音声認識方法および音声認識装置および音声認識プログラム |
WO2007080886A1 (ja) * | 2006-01-11 | 2007-07-19 | Nec Corporation | 音声認識装置、音声認識方法、および音声認識プログラム、ならびに妨害軽減装置、妨害軽減方法、および妨害軽減プログラム |
JP2011002656A (ja) * | 2009-06-18 | 2011-01-06 | Nec Corp | 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム |
JP2012063545A (ja) * | 2010-09-15 | 2012-03-29 | Ntt Docomo Inc | 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7096634B2 (ja) | 2022-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5997217B2 (ja) | 言語変換において複数の読み方の曖昧性を除去する方法 | |
JP5257071B2 (ja) | 類似度計算装置及び情報検索装置 | |
US10133965B2 (en) | Method for text recognition and computer program product | |
CN100416593C (zh) | 用于手写识别的装置和方法 | |
JPH03224055A (ja) | 同時通訳向き音声認識システムおよびその音声認識方法 | |
JP2014145842A (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
JP2012256353A (ja) | ショートハンド・オン・キーボード・インタフェースにおいてテキスト入力を改善するためのシステム、コンピュータ・プログラムおよび方法(キーボード上のショートハンド・オン・キーボード・インタフェースにおけるテキスト入力の改良) | |
CN111159990A (zh) | 一种基于模式拓展的通用特殊词识别方法及系统 | |
CN112988753B (zh) | 一种数据搜索方法和装置 | |
CN111048073B (zh) | 一种音频处理方法、装置、电子设备及可读存储介质 | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
JP2011242613A (ja) | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 | |
KR100542757B1 (ko) | 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치 | |
KR20120052591A (ko) | 연속어 음성인식 시스템에서 오류수정 장치 및 방법 | |
JP2012003090A (ja) | 音声認識装置および音声認識方法 | |
JP7096634B2 (ja) | 音声認識支援装置、音声認識支援方法及び音声認識支援プログラム | |
JP2004348552A (ja) | 音声文書検索装置および方法およびプログラム | |
JP4084515B2 (ja) | アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体 | |
CN114861669A (zh) | 一种融入拼音信息的中文实体链接方法 | |
JP4735958B2 (ja) | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム | |
JPH08166966A (ja) | 辞書検索装置、データベース装置、文字認識装置、音声認識装置、および文章修正装置 | |
JP3952964B2 (ja) | 読み情報決定方法及び装置及びプログラム | |
JP5795302B2 (ja) | 形態素解析装置、方法、及びプログラム | |
JP3274014B2 (ja) | 文字認識装置および文字認識方法 | |
JP4622861B2 (ja) | 音声入力システム、音声入力方法、および、音声入力用プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220614 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220622 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7096634 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |