JP2022096852A - 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム - Google Patents
音声認識プログラム、音声認識方法、音声認識装置および音声認識システム Download PDFInfo
- Publication number
- JP2022096852A JP2022096852A JP2020210074A JP2020210074A JP2022096852A JP 2022096852 A JP2022096852 A JP 2022096852A JP 2020210074 A JP2020210074 A JP 2020210074A JP 2020210074 A JP2020210074 A JP 2020210074A JP 2022096852 A JP2022096852 A JP 2022096852A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- speakers
- terminal
- voice
- cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 47
- 238000004891 communication Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 22
- 238000010801 machine learning Methods 0.000 description 45
- 238000010586 diagram Methods 0.000 description 30
- 238000013518 transcription Methods 0.000 description 22
- 230000035897 transcription Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 11
- 238000012790 confirmation Methods 0.000 description 9
- 238000012937 correction Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- KNMAVSAGTYIFJF-UHFFFAOYSA-N 1-[2-[(2-hydroxy-3-phenoxypropyl)amino]ethylamino]-3-phenoxypropan-2-ol;dihydrochloride Chemical compound Cl.Cl.C=1C=CC=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC=C1 KNMAVSAGTYIFJF-UHFFFAOYSA-N 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
以下に添付図面を参照して、この発明にかかる音声認識プログラム、音声認識方法、音声認識装置および音声認識システムの好適な実施の形態を詳細に説明する。
図1は、実施の形態にかかる音声認識システムの機能構成図である。音声認識システムは、音声を録音する端末100と、クラウド110とを含む。端末100は、ICレコーダや、録音アプリを有するスマートフォン、タブレット、PC等である。以下の説明では、ICレコーダやスマートフォン等の端末100がマイクから音声を録音する構成を例に説明するが、これに限らず、端末100は、スマートフォン等による相手との通話を録音する構成とすることもできる。
次に、図6~図11を用いて、実施の形態にかかる音声認識処理を順に説明する。図6は、話者人数推定と話者認識の処理の遷移図である。図6に示す例では、端末100がスマートフォン等のモバイル機器であり、録音および音声認識機能を有するモバイルアプリ601を搭載している。モバイルアプリ601は、端末100の制御部105に相当する。クラウド110側の機械学習サーバー130は、端末100での音声の初回録音時の処理(ステップS600)と、初回録音後、一人でも録音タグ付けしている場合の処理(ステップS610)とで異なる処理を行う。
ここで、端末100の文字起こし部103の機能について説明する。文字起こし部103は、音声を録音あるいは再生しながら音声に対応するテキスト文字を生成する。
図13は、音声ファイル再生時の端末上の表示画面を示す図である。端末100には多数の音声ファイルDが記憶保持されており、制御部(モバイルアプリ601)は、音声ファイルの再生等の際、表示画面1300上に所望する音声ファイルDを見つけやすくするための画面表示を行う。例えば、図13に示すように、端末100の再生時には、カレンダー1301を表示する。カレンダー1301上には、録音済みの音声ファイルDに付与された録音日の部分が識別可能(図示の例では録音日が〇)に表示される。これにより、ユーザは、カレンダー1301上から録音日に基づき所望する音声ファイルDを容易に再生できるようになる。
次に、図14~図18を用いて話者人数の推定と話者認識の修正例について説明する。実施の形態では、音声ファイルDに含まれる認識したい人の声となる音声区間と、雑音である非音声区間と、を識別する仕組みとして音声区間検出(VAD:Voice. Activity Detection)技術を用いる。
101 マイク
102 録音部
103 文字起こし部
104 話者タグ付け部
105 制御部
106 キーボード
107 ディスプレイ
110 クラウド
120 ストレージサーバー
130 機械学習サーバー
131 話者人数推定部
132 話者認識部
140 学習済モデルDB
201 CPU
202 ROM
203 RAM
204 外部メモリ
211 通信I/F
601 モバイルアプリ
711 話者数推定表示領域
712 話者表示領域
D 音声ファイル
Claims (11)
- コンピュータに、
音声ファイルに含まれる話者別の話者人数を推定し、
予め用意された話者別の学習済モデルを参照し、推定した前記話者人数のそれぞれの話者を認識し、
前記音声ファイルに含まれる話者をタグ付けする、
処理を実行させることを特徴とする音声認識プログラム。 - 前記認識の処理は、
推定した前記話者人数の情報、および前記話者人数に対応する話者候補をユーザに提示し、
前記ユーザによる前記話者候補から前記話者を特定する操作に基づき、前記話者人数のそれぞれの話者を認識し、
前記タグ付けの処理は、
前記ユーザの操作に基づき話者をタグ付けする、
ことを特徴とする請求項1に記載の音声認識プログラム。 - 前記推定の処理は、
推定した前記話者人数をユーザに提示し、
前記ユーザによる前記話者人数の変更操作に基づき、前記音声ファイルに含まれる話者人数の推定を再度実行する、
ことを特徴とする請求項1または2に記載の音声認識プログラム。 - さらに、前記タグ付け後の話者の情報の学習および蓄積を行い、
前記認識の処理は、
前記学習済モデルに基づき、推定した前記話者人数のそれぞれの話者を認識する、
ことを特徴とする請求項1~3のいずれか一つに記載の音声認識プログラム。 - 前記音声の録音時あるいは再生時に、前記音声ファイルに含まれる文字をリアルタイムに生成することを特徴とする請求項1~4のいずれか一つに記載の音声認識プログラム。
- コンピュータが、
音声ファイルに含まれる話者別の話者人数を推定し、
予め用意された話者別の学習済モデルを参照し、推定した前記話者人数のそれぞれの話者を認識し、
前記音声ファイルに含まれる話者をタグ付けする、
処理を実行することを特徴とする音声認識方法。 - 音声ファイルに含まれる話者人数と話者を認識する制御部、を備え、
前記制御部は、
音声ファイルに含まれる話者別の話者人数を推定し、
予め用意された話者別の学習済モデルを参照し、推定した前記話者人数のそれぞれの話者を認識し、
前記音声ファイルに含まれる話者をタグ付けする、
ことを特徴とする音声認識装置。 - 端末と、クラウドが通信接続された音声認識システムにおいて、
前記端末は、
音声の録音部と、
録音あるいは再生した音声ファイルを前記クラウドにアップロードする通信部と、を有し、
前記クラウドは、
前記音声ファイルに含まれる話者別の話者人数を推定し、
予め用意された話者別の学習済モデルを参照し、推定した前記話者人数のそれぞれの話者を認識し、
前記音声ファイルに含まれる話者をタグ付けした情報を前記端末に通知する、
ことを特徴とする音声認識システム。 - 前記端末は、
前記クラウドが推定した前記話者人数の情報、および前記話者人数に対応する話者候補をユーザに提示する表示部を備え、
前記ユーザによる前記話者候補から前記話者を特定する操作の情報を前記クラウドに送信し、
前記クラウドは、
前記端末から受信した前記話者候補から前記話者を特定する操作の情報に基づき、前記話者人数のそれぞれの話者を認識し、
前記ユーザの操作に基づき話者をタグ付けした情報を前記端末に送信する、
ことを特徴とする請求項8に記載の音声認識システム。 - 前記端末は、
前記クラウドが推定した前記話者人数を前記表示部によりユーザに提示し、
前記クラウドは、
前記端末から受信した前記ユーザによる前記話者人数の変更操作に基づき、前記音声ファイルに含まれる話者人数の推定を再度実行した結果を前記端末に送信する、
ことを特徴とする請求項8または9に記載の音声認識システム。 - 前記クラウドは、
前記端末からアップロードされた前記音声ファイルを保存する保存部を有することを特徴とする請求項8~10のいずれか一つに記載の音声認識システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020210074A JP7103681B2 (ja) | 2020-12-18 | 2020-12-18 | 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム |
JP2022106669A JP7575804B2 (ja) | 2022-06-30 | 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020210074A JP7103681B2 (ja) | 2020-12-18 | 2020-12-18 | 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022106669A Division JP7575804B2 (ja) | 2022-06-30 | 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022096852A true JP2022096852A (ja) | 2022-06-30 |
JP7103681B2 JP7103681B2 (ja) | 2022-07-20 |
Family
ID=82165077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020210074A Active JP7103681B2 (ja) | 2020-12-18 | 2020-12-18 | 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7103681B2 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004145161A (ja) * | 2002-10-28 | 2004-05-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声データベース登録処理方法,音声発生源認識方法,音声発生区間検索方法,音声データベース登録処理装置,音声発生源認識装置,音声発生区間検索装置,並びにそのプログラムおよびそのプログラムの記録媒体 |
JP2010060850A (ja) * | 2008-09-04 | 2010-03-18 | Nec Corp | 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム |
JP2016057461A (ja) * | 2014-09-09 | 2016-04-21 | 富士通株式会社 | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム |
JP2017021672A (ja) * | 2015-07-14 | 2017-01-26 | 村田機械株式会社 | 検索装置 |
JP2018063313A (ja) * | 2016-10-12 | 2018-04-19 | 日本電信電話株式会社 | 話者数推定装置、話者数推定方法、およびプログラム |
JP2018097239A (ja) * | 2016-12-15 | 2018-06-21 | カシオ計算機株式会社 | 音声再生装置及びプログラム |
-
2020
- 2020-12-18 JP JP2020210074A patent/JP7103681B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004145161A (ja) * | 2002-10-28 | 2004-05-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声データベース登録処理方法,音声発生源認識方法,音声発生区間検索方法,音声データベース登録処理装置,音声発生源認識装置,音声発生区間検索装置,並びにそのプログラムおよびそのプログラムの記録媒体 |
JP2010060850A (ja) * | 2008-09-04 | 2010-03-18 | Nec Corp | 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム |
JP2016057461A (ja) * | 2014-09-09 | 2016-04-21 | 富士通株式会社 | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム |
JP2017021672A (ja) * | 2015-07-14 | 2017-01-26 | 村田機械株式会社 | 検索装置 |
JP2018063313A (ja) * | 2016-10-12 | 2018-04-19 | 日本電信電話株式会社 | 話者数推定装置、話者数推定方法、およびプログラム |
JP2018097239A (ja) * | 2016-12-15 | 2018-06-21 | カシオ計算機株式会社 | 音声再生装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7103681B2 (ja) | 2022-07-20 |
JP2022121643A (ja) | 2022-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112075075B (zh) | 用于促进远程会议的方法和计算机化智能助理 | |
TWI536365B (zh) | 聲紋辨識 | |
US11423889B2 (en) | Systems and methods for recognizing a speech of a speaker | |
JP6604836B2 (ja) | 対話テキスト要約装置及び方法 | |
JP4558308B2 (ja) | 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム | |
US11869508B2 (en) | Systems and methods for capturing, processing, and rendering one or more context-aware moment-associating elements | |
JP2006301223A (ja) | 音声認識システム及び音声認識プログラム | |
US20160189107A1 (en) | Apparatus and method for automatically creating and recording minutes of meeting | |
JP2016102920A (ja) | 文書記録システム及び文書記録プログラム | |
CN111223487B (zh) | 一种信息处理方法及电子设备 | |
JP6254504B2 (ja) | 検索サーバ、及び検索方法 | |
JP2002099530A (ja) | 議事録作成装置及び方法並びにこれを用いた記憶媒体 | |
JP7103681B2 (ja) | 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム | |
JP2018097239A (ja) | 音声再生装置及びプログラム | |
WO2019146187A1 (ja) | 情報処理装置および情報処理方法 | |
JP2019197210A (ja) | 音声認識誤り修正支援装置およびそのプログラム | |
JP6627315B2 (ja) | 情報処理装置、情報処理方法、および制御プログラム | |
US20230153061A1 (en) | Hierarchical Context Specific Actions from Ambient Speech | |
JP7152453B2 (ja) | 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム | |
EP3951775A1 (en) | Method for generating speaker-marked text | |
US11430429B2 (en) | Information processing apparatus and information processing method | |
JP6962849B2 (ja) | 会議支援装置、会議支援制御方法およびプログラム | |
JP2012003698A (ja) | 会議支援装置、会議支援方法、会議支援プログラムおよび記録媒体 | |
JP7172299B2 (ja) | 情報処理装置、情報処理方法、プログラムおよび情報処理システム | |
JP3927155B2 (ja) | 対話記録装置および対話記録プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220408 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220519 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220531 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220630 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7103681 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |