JP2021039293A - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP2021039293A JP2021039293A JP2019161765A JP2019161765A JP2021039293A JP 2021039293 A JP2021039293 A JP 2021039293A JP 2019161765 A JP2019161765 A JP 2019161765A JP 2019161765 A JP2019161765 A JP 2019161765A JP 2021039293 A JP2021039293 A JP 2021039293A
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- time series
- partial time
- series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 14
- 238000003672 processing method Methods 0.000 title claims description 3
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 6
- 230000001174 ascending effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 claims 1
- 230000037433 frameshift Effects 0.000 description 6
- 230000008707 rearrangement Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
まず、本実施形態の全体構成について、図1を参照しながら説明する。図1は、本実施形態の全体構成の一例を示す図である。
次に、本実施形態に係る学習データ作成装置10で学習データ2000を作成した上で、本実施形態に係る音響モデル学習装置20で当該学習データ2000を用いて音響モデル3000を学習する場合の処理の流れについて、図2を参照しながら説明する。図2は、学習データの作成及び音響モデルの学習の一例を示すフローチャートである。
以上のように、本実施形態では、個人情報や機密情報等が含まれる音声データ1000を用いて、この音声データ1000が表す情報を復元できないように細分化した部分時系列1200で構成される学習データ2000を作成することができる。本実施形態を用いることで、学習データ2000からは個人情報や機密情報等を復元することができないため、個人情報や機密情報等が含まれる音声データ1000であっても音響モデル3000の学習に利用することができるようになる。このため、例えば、音声認識を利用したサービスを提供するサービス提供者は、音響モデル3000の学習に必要な学習データ2000を容易に入手することができるようになり、音響モデル3000の性能を向上させることが可能になる。
20 音響モデル学習装置
101 特徴量抽出部
102 部分時系列作成部
103 ノイズ付加部
104 順序並べ替え部
105 学習データ作成部
201 音響モデル学習部
1000 音声データ
2000 学習データ
3000 音響モデル
Claims (6)
- 入力された音声データから、特徴量の時系列データを抽出する抽出手段と、
前記抽出手段により抽出された時系列データから、所定の時間幅毎に特徴量を切り出すことで複数の部分時系列データを作成する部分時系列作成手段と、
前記部分時系列作成手段により作成された複数の部分時系列データのそれぞれをランダムに接続して、音響モデルの学習に用いられる学習データを作成する学習データ作成手段と、
を有することを特徴とする情報処理装置。 - 前記部分時系列作成手段により作成された複数の部分時系列データのそれぞれに対してノイズを付加するノイズ付加手段を有し、
前記学習データ作成手段は、
前記ノイズ付加手段によりノイズがそれぞれ付加された複数の部分時系列データをランダムに接続して、前記学習データを作成する、ことを特徴とする請求項1に記載の情報処理装置。 - 前記ノイズ付加手段は、
前記複数の部分時系列データのそれぞれに対して生成した第1の乱数を前記ノイズとして付加し、
前記学習データ作成手段は、
前記ノイズ付加手段によりノイズがそれぞれ付加された複数の部分時系列データのそれぞれに対して第2の乱数を生成し、前記第2の乱数の昇順又は降順に前記複数の部分時系列データを接続して、前記学習データを作成する、ことを特徴とする請求項2に記載の情報処理装置。 - 前記学習データ作成手段により作成された学習データを前記所定の時間幅毎に切り出したデータと、前記データに付与された正解ラベルとを用いて、前記音響モデルを学習する学習手段を有する、ことを特徴とする請求項1乃至3の何れか一項に記載の情報処理装置。
- 入力された音声データから、特徴量の時系列データを抽出する抽出手順と、
前記抽出手順で抽出された時系列データから、所定の時間幅毎に特徴量を切り出すことで複数の部分時系列データを作成する部分時系列作成手順と、
前記部分時系列作成手順で作成された複数の部分時系列データのそれぞれをランダムに接続して、音響モデルの学習に用いられる学習データを作成する学習データ作成手順と、
をコンピュータが実行することを特徴とする情報処理方法。 - コンピュータを、請求項1乃至4の何れか一項に記載の情報処理装置における各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019161765A JP7010905B2 (ja) | 2019-09-05 | 2019-09-05 | 情報処理装置、情報処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019161765A JP7010905B2 (ja) | 2019-09-05 | 2019-09-05 | 情報処理装置、情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021039293A true JP2021039293A (ja) | 2021-03-11 |
JP7010905B2 JP7010905B2 (ja) | 2022-01-26 |
Family
ID=74847069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019161765A Active JP7010905B2 (ja) | 2019-09-05 | 2019-09-05 | 情報処理装置、情報処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7010905B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022153504A1 (ja) * | 2021-01-15 | 2022-07-21 | 日本電信電話株式会社 | 学習方法、学習システム及び学習プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018128913A (ja) * | 2017-02-09 | 2018-08-16 | 日本電信電話株式会社 | データ流通仲介装置、データ流通仲介システム、およびデータ流通仲介方法 |
-
2019
- 2019-09-05 JP JP2019161765A patent/JP7010905B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018128913A (ja) * | 2017-02-09 | 2018-08-16 | 日本電信電話株式会社 | データ流通仲介装置、データ流通仲介システム、およびデータ流通仲介方法 |
Non-Patent Citations (1)
Title |
---|
三村正人: "講演音声認識のための類似話者選択に基づくDNN−HMMの教師なし適応", 電子情報通信学会論文誌D, vol. 98, no. 11, JPN6018003560, 2 December 2015 (2015-12-02), JP, pages 1411 - 1418, ISSN: 0004528426 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022153504A1 (ja) * | 2021-01-15 | 2022-07-21 | 日本電信電話株式会社 | 学習方法、学習システム及び学習プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7010905B2 (ja) | 2022-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8812314B2 (en) | Method of and system for improving accuracy in a speech recognition system | |
CN103345467B (zh) | 语音翻译系统 | |
US7788095B2 (en) | Method and apparatus for fast search in call-center monitoring | |
CN113436609B (zh) | 语音转换模型及其训练方法、语音转换方法及系统 | |
CN113724718B (zh) | 目标音频的输出方法及装置、系统 | |
KR20110099434A (ko) | 대화 로그를 이용한 학습 기반 대화 시스템 성능 향상 방법 및 그 장치 | |
CN113205793B (zh) | 音频生成方法、装置、存储介质及电子设备 | |
CN110600032A (zh) | 一种语音识别方法及装置 | |
CN111698552A (zh) | 一种视频资源的生成方法和装置 | |
CN112053692A (zh) | 语音识别处理方法、装置及存储介质 | |
JP7010905B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN114328867A (zh) | 一种人机对话中智能打断的方法及装置 | |
Mandel et al. | Audio super-resolution using concatenative resynthesis | |
CN113724690B (zh) | Ppg特征的输出方法、目标音频的输出方法及装置 | |
CN114783408A (zh) | 一种音频数据处理方法、装置、计算机设备以及介质 | |
CN112397053A (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
US20230410787A1 (en) | Speech processing system with encoder-decoder model and corresponding methods for synthesizing speech containing desired speaker identity and emotional style | |
Khanna et al. | Summarizeai-summarization of the podcasts | |
CN113345413B (zh) | 基于音频特征提取的语音合成方法、装置、设备及介质 | |
CN116312468A (zh) | 一种合成含有情感的语音的方法、装置、设备和存储介质 | |
WO2023157207A1 (ja) | 信号解析システム、信号解析方法及びプログラム | |
WO2021234904A1 (ja) | 学習データ生成装置、モデル学習装置、学習データ生成方法、およびプログラム | |
CN115440198A (zh) | 混合音频信号的转换方法、装置、计算机设备和存储介质 | |
Prabhakar et al. | Evaluating Feature Importance for Speaker Separation Models | |
Dovbysh et al. | Development and integration of speech recognition tools into software applications and an approach to improve of speech recognition quality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200717 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210615 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210729 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211014 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7010905 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |