JP5751627B2 - 音声データ書き起こし用webサイトシステム - Google Patents
音声データ書き起こし用webサイトシステム Download PDFInfo
- Publication number
- JP5751627B2 JP5751627B2 JP2011165921A JP2011165921A JP5751627B2 JP 5751627 B2 JP5751627 B2 JP 5751627B2 JP 2011165921 A JP2011165921 A JP 2011165921A JP 2011165921 A JP2011165921 A JP 2011165921A JP 5751627 B2 JP5751627 B2 JP 5751627B2
- Authority
- JP
- Japan
- Prior art keywords
- fragment
- data
- text data
- text
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013518 transcription Methods 0.000 title claims description 50
- 230000035897 transcription Effects 0.000 title claims description 50
- 239000012634 fragment Substances 0.000 claims description 174
- 238000013500 data storage Methods 0.000 claims description 41
- 238000000034 method Methods 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000009193 crawling Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 238000012937 correction Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 241000238631 Hexapoda Species 0.000 description 2
- 240000000220 Panda oleosa Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
言語モデルは、WebキーワードベースのN−gramであり、Webニューステキスト、CSJの講演書き起こしを用いて学習したものである。一方、HMMアラインメント処理には、上記のCSJから学習した混合数32のmonophoneモデルを用いた。ここでtriphoneではなく、monophoneを利用することで、アラインメント処理における計算コストを大きく削減することができる。
2 ストリーミング配信サーバ
3 インターネット
4 ユーザ端末装置
11 入出力部
12 制御部
13 アクセス情報登録部
14 音声データ記憶部
15 音声認識結果記憶部
16 断片テキストデータ記憶部
17 データ記憶装置
18 インターフェース表示部
19 音声認識部
20 音声認識結果送信部
21 データ変換部
22 判定部
23 データ置換部
24 機能実現部
25 ネットワーク
D1 選択画面
D2 表示画面
d1 コンテンツ画面
d2 テキスト画面
d3 断片テキスト画面
PAP 断片音声パターン
PAD 期間音声データ
B1 選択ボタン
B2 コンテンツ選択ボタン
B3 書き起こし開始ボタン
B4 書き起こし中止ボタン
Claims (10)
- インターネット上の動画コンテンツまたは音声コンテンツ中の音声データを複数のユーザが協調してテキストデータに書き起こすために利用される音声データ書き起こし用WEBサイトシステムであって、
前記動画コンテンツまたは音声コンテンツの少なくともURLを含むアクセス情報を登録するアクセス情報登録部と、
前記アクセス情報登録部に登録された前記動画コンテンツまたは音声コンテンツのアクセス情報中で、ユーザ端末装置により前記インターネットを介して選択された前記アクセス情報に基づいてアクセスした前記動画コンテンツまたは音声コンテンツ中の前記音声データを音声認識技術によりテキストデータに変換する音声認識部と、
前記音声データを、前記動画コンテンツまたは音声コンテンツの配信時刻と一緒に記憶する音声データ記憶部と、
前記音声認識部による音声認識結果をテキストデータとして、前記動画または音声コンテンツの前記配信時刻と一緒に記憶する音声認識結果記憶部と、
前記音声認識結果記憶部に記憶されている前記テキストデータを前記ユーザ端末装置に送信する音声認識結果送信部と、
前記ユーザが前記ユーザ端末装置を用いて、前記動画コンテンツを見ながらまたは前記音声コンテンツを聞きながら前記音声データの一部を断片テキストデータにしたものを、入力時刻と一緒に前記インターネットを介して送信してきたときに、前記断片テキストデータを前記入力時刻と一緒に記憶する断片テキストデータ記憶部と、
前記断片テキストデータ記憶部に記憶された前記断片テキストデータを音響モデルとしての断片音声パターンに変換するデータ変換部と、
前記入力時刻から所定の時間間隔遡った所定の時間期間内に配信された期間音声データを前記音声データ記憶部から取得して、前記期間音声データ中に前記断片音声パターンと音響的に適合する音声パターンとなる音声データ部分があるか否かを判定する判定部と、
前記判定部が音響的に適合すると判定した音声パターン部分に対応する前記音声認識結果記憶部に記憶されている前記テキストデータの該当テキストデータ部分を前記断片テキストデータで置き換えるデータ置換部とを備えていることを特徴とする音声データ書き起こし用WEBサイトシステム。 - 前記所定の時間間隔が、8秒〜15秒の期間である請求項1に記載の音声データ書き起こし用WEBサイトシステム。
- 前記動画コンテンツまたは音声コンテンツが、ライブストリーミングにより配信されるものであり、
前記アクセス情報登録部に登録されるアクセス情報は、ライブストリーミングコンテンツのクロールにより集められて登録されたものか、またはユーザによって登録されたものである請求項1に記載の音声データ書き起こし用WEBサイトシステム。 - 前記アクセス情報登録部に登録された前記アクセス情報を選択可能にする選択画面と、前記音声認識結果記憶部に記憶されている前記テキストデータに基づくテキストを逐次表示するテキスト画面と、前記動画コンテンツを逐次表示するコンテンツ表示画面と、前記テキスト画面に表示されている前記テキストと時刻同期して、前記断片テキストデータ記憶部に記憶された複数の断片テキストデータに基づく断片テキストを逐次表示する断片テキスト画面を表示するためのインターフェースを前記ユーザ端末装置の表示画面で見ることができるようにするインターフェース表示部をさらに備えている請求項1に記載の音声データ書き起こし用WEBサイトシステム。
- 前記データ変換部は、前記断片テキストデータ記憶部に記憶されている前記断片テキストデータから単語断片テキストデータのみを分離して、分離した単語断片テキストデータを断片音声パターンに変換する請求項1乃至4のいずれか1項に記載の音声データ書き起こし用WEBサイトシステム。
- 前記判定部は、キーワードスポッティング法により前記期間音声データ中に前記断片音声パターンと音響的に適合する音声パターンとなる音声データ部分があるか否かを判定する請求項1または5に記載の音声データ書き起こし用WEBサイトシステム。
- 前記インターフェース表示部は、前記ユーザ端末装置の前記表示画面に、自分が入力した断片テキストと他人が入力した断片テキストとを区別できる表示態様で断片テキスト画面に複数のユーザが入力した複数の断片テキストを表示する請求項4に記載の音声データ書き起こし用WEBサイトシステム。
- 前記インターフェース表示部は、前記テキスト画面に表示される前記テキストのための前記テキストデータが前記断片テキストデータにより置き換えられたものであるか否かが区別できる表示態様で前記テキストを前記テキスト画面に表示する請求項4に記載の音声データ書き起こし用WEBサイトシステム。
- 前記データ変換部は、前記所定の時間期間内に前記断片テキストデータ記憶部に記憶された複数の断片テキストデータの中で最も数が多い断片テキストデータを代表として断片音声パターンに変換する請求項1に記載の音声データ書き起こし用WEBサイトシステム。
- 前記データ変換部は、前記所定の時間期間内に前記断片テキストデータ記憶部に記憶された複数の断片テキストデータの中で所定数以上の送信があった断片テキストデータを代表として断片音声パターンに変換する請求項1に記載の音声データ書き起こし用WEBサイトシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011165921A JP5751627B2 (ja) | 2011-07-28 | 2011-07-28 | 音声データ書き起こし用webサイトシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011165921A JP5751627B2 (ja) | 2011-07-28 | 2011-07-28 | 音声データ書き起こし用webサイトシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013029684A JP2013029684A (ja) | 2013-02-07 |
JP5751627B2 true JP5751627B2 (ja) | 2015-07-22 |
Family
ID=47786780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011165921A Expired - Fee Related JP5751627B2 (ja) | 2011-07-28 | 2011-07-28 | 音声データ書き起こし用webサイトシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5751627B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6323828B2 (ja) * | 2013-12-27 | 2018-05-16 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 支援装置、情報処理方法、及び、プログラム |
JP6242773B2 (ja) | 2014-09-16 | 2017-12-06 | 株式会社東芝 | 会議情報蓄積装置、方法およびプログラム |
CN108337559A (zh) * | 2018-02-06 | 2018-07-27 | 杭州政信金服互联网科技有限公司 | 一种直播文字展示方法及系统 |
CN113014853B (zh) | 2020-04-30 | 2022-11-11 | 北京字节跳动网络技术有限公司 | 互动信息处理方法、装置、电子设备及存储介质 |
US11552966B2 (en) * | 2020-09-25 | 2023-01-10 | International Business Machines Corporation | Generating and mutually maturing a knowledge corpus |
CN112100433A (zh) * | 2020-11-17 | 2020-12-18 | 深圳五洲无线股份有限公司 | 基于可穿戴设备的音频播放方法、装置、设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008066166A1 (fr) * | 2006-11-30 | 2008-06-05 | National Institute Of Advanced Industrial Science And Technology | Système de site web pour recherche de données vocales |
-
2011
- 2011-07-28 JP JP2011165921A patent/JP5751627B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013029684A (ja) | 2013-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10410627B2 (en) | Automatic language model update | |
US8386265B2 (en) | Language translation with emotion metadata | |
US9031839B2 (en) | Conference transcription based on conference data | |
CN101382937B (zh) | 基于语音识别的多媒体资源处理方法及其在线教学系统 | |
US10147416B2 (en) | Text-to-speech processing systems and methods | |
JP5751627B2 (ja) | 音声データ書き起こし用webサイトシステム | |
US9740686B2 (en) | System and method for real-time multimedia reporting | |
US20120016671A1 (en) | Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions | |
Alberti et al. | An audio indexing system for election video material | |
US11093110B1 (en) | Messaging feedback mechanism | |
JP2009522845A (ja) | サーチ可能なマルチメディア・ストリーム | |
Aksënova et al. | How might we create better benchmarks for speech recognition? | |
Lamel et al. | Speech processing for audio indexing | |
Munteanu et al. | Web-based language modelling for automatic lecture transcription. | |
Furui | Recent progress in corpus-based spontaneous speech recognition | |
Mirkin et al. | A recorded debating dataset | |
Nouza et al. | Making czech historical radio archive accessible and searchable for wide public | |
Pražák et al. | Live TV subtitling through respeaking with remote cutting-edge technology | |
KR102261539B1 (ko) | 지능형 한국 문화 플랫폼 서비스 제공 시스템 | |
US20140129221A1 (en) | Sound recognition device, non-transitory computer readable storage medium stored threreof sound recognition program, and sound recognition method | |
US11922931B2 (en) | Systems and methods for phonetic-based natural language understanding | |
JP5366050B2 (ja) | 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム | |
Valor Miró et al. | Integrating a state-of-the-art ASR system into the Opencast Matterhorn platform | |
Furui et al. | Transcription and distillation of spontaneous speech | |
WO2021017302A1 (zh) | 一种数据提取方法、装置、计算机系统及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150316 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150512 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150514 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5751627 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |