JPH09244682A - 音声認識・音声合成装置 - Google Patents

音声認識・音声合成装置

Info

Publication number
JPH09244682A
JPH09244682A JP8051324A JP5132496A JPH09244682A JP H09244682 A JPH09244682 A JP H09244682A JP 8051324 A JP8051324 A JP 8051324A JP 5132496 A JP5132496 A JP 5132496A JP H09244682 A JPH09244682 A JP H09244682A
Authority
JP
Japan
Prior art keywords
dialect
voice
conversion
code information
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8051324A
Other languages
English (en)
Inventor
Yasuhiro Hirano
裕弘 平野
Takashi Hoshino
剛史 星野
Noboru Kojima
昇 小島
Masahito Sugiyama
雅人 杉山
Kentaro Teranishi
謙太郎 寺西
Takaaki Nishiseto
孝明 西瀬戸
Nobufumi Nakagaki
宣文 中垣
Yasuhiro Kasahara
康弘 笠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8051324A priority Critical patent/JPH09244682A/ja
Publication of JPH09244682A publication Critical patent/JPH09244682A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Television Receiver Circuits (AREA)

Abstract

(57)【要約】 【課題】方言なども含めた会話音声の音声認識や音声合
成を簡単な信号処理で実現する音声認識・音声合成装置
を提供する。 【解決手段】音声認識2では、特定地域の方言を標準語
に変換する変換マップを複数地域について備えた方言標
準語変換の手段3を設け、地域コード情報5で指定する
複数地域の一つの特定地域の変換マップを用いて方言標
準語変換を行う。そして、得られた標準語の文節を出力
する。音声合成8では、標準語を特定地域の方言に変換
する変換マップを複数地域について備えた標準語方言変
換の手段7を設け、地域コード情報5で指定する複数地
域の一つの特定地域の変換マップを用いて標準語方言変
換を行う。そして、得られた特定地域の方言から音声を
合成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識・音声合成
装置に関する。
【0002】
【従来の技術】音声は人間にとって意志の疎通に欠くこ
とができない手段であり、最も自然なマンマシンインタ
フェースの一つとして、音声認識技術や音声合成技術の
研究開発が進められている。
【0003】音声認識技術は、数字などの単語音声認識
に始まり、最近では1千単語以上を認識対象とする比較
的大語彙あるいは不特定話者、あるいは一つの文章を連
続して発生するような連続音声なども可能な状況にあ
る。そして、人間の通常の会話音声を理解し、人間のよ
うに応答する対話システムの研究も進められている。
【0004】しかし、方言なども含めて、人間の会話音
声は地域により差がある。このため、これら地域差のあ
る会話音声に対してできるだけ自然に感じられる音声認
識技術や音声合成技術の開発が重要な課題となってい
る。
【0005】
【発明が解決しようとする課題】本発明の目的は、方言
なども含めて地域により差のある会話音声の音声認識や
音声合成を簡単な信号処理で実現する音声認識・音声合
成装置を提供することにある。
【0006】
【課題を解決するための手段】本発明では、上記の目的
を達成するため、以下の技術的手段を採用する。
【0007】音声認識では、特定地域の方言を標準語に
変換する変換マップを複数地域について備えた方言標準
語変換の手段を設け、地域コード情報で指定する複数地
域の一つの特定地域の変換マップを用いて方言標準語変
換を行う。そして、得られた標準語の文節を出力する。
【0008】音声合成では、標準語を特定地域の方言に
変換する変換マップを複数地域について備えた標準語方
言変換の手段を設け、地域コード情報で指定する複数地
域の一つの特定地域の変換マップを用いて標準語方言変
換を行う。そして、得られた特定地域の方言から音声を
合成する。
【0009】したがって、従来は極めて困難と考えられ
ていた方言と標準語との相互の変換が、本発明では地域
コード情報で限定される地域の変換マップのみを用いた
信号処理で極めて容易に行うことができる。
【0010】
【発明の実施の形態】本発明の第1の実施例を、図1の
ブロック図により説明する。本実施例は、会話音声を認
識するに好適なものである。図中の1はマイク、2は音
声認識部、3は方言標準語変換部、4は機能コード変換
部、5は地域コード設定部である。
【0011】会話音声S1は、マイク1を介して音声認
識部2に入力する。音声認識部2は、従来技術と同様の
音声認識の信号処理を行い、認識した文節の文字コード
情報S2を出力する。
【0012】方言標準語変換部3は、前述した様に、特
定地域の方言を標準語に変換する変換マップを複数地域
について有し、地域コード設定部5より供給する地域コ
ード情報LACで定める変換マップを使用して、認識し
た方言を含む文節の文字コード情報S2を標準語の文節
に変換し、変換した標準語文節の文字コード情報S3を
出力する。この動作の詳細は後述する。
【0013】機能コード変換部4は、変換した標準語文
節の文字コード情報S3で定まる各種機能の動作を制御
するコード情報への変換を行い、制御情報S4を出力す
る。なお、図には明示していないが、この制御情報S4
で機械を動作させることで、より自然で親しみやすいマ
ンマシンインタフェースやユーザインタフェースが実現
できる。
【0014】次に、本発明の第2の実施例について、図
2に示すブロック図で説明する。本実施例は、会話音声
を合成するに好適なものである。図中の5は地域コード
設定部、6は機能コード逆変換部、7は標準語方言変換
部、8は音声合成部、9はスピーカである。
【0015】機能コード逆変換部6は、制御情報S4を
対応する標準語文節の情報に変換する処理を行い、標準
語文節の文字コード情報S5を出力する。
【0016】標準語方言変換部7は、前述した様に、標
準語を特定地域の方言に変換する変換マップを複数地域
について有し、地域コード設定部5より供給する地域コ
ード情報LACで定める変換マップを使用して、標準語
文節を指定地域の方言を含む文節に変換し、変換した方
言の文節の文字コード情報S6を出力する。この動作の
詳細についても後述する。
【0017】音声合成部8は、従来技術と同様の音声合
成の信号処理を行い、方言を含む会話音声の信号S7を
出力する。そして、この信号をスピーカ9に供給して、
合成音声S8を再生する。
【0018】この結果、より自然で親しみやすいマンマ
シンインタフェースやユーザインタフェースが実現でき
る。
【0019】次に、本発明の第3の実施例について、図
3に示すブロック図で説明する。本実施例は、会話音声
の認識および合成に好適なものである。図中の1はマイ
ク、2は音声認識部、3は方言標準語変換部、4は機能
コード変換部、5は地域コード設定部、6は機能コード
逆変換部、7は標準語方言変換部、8は音声合成部、9
はスピーカ、10は機器制御部である。
【0020】会話音声S1は、マイク1を介して音声認
識部2に入力する。音声認識部2は、従来技術と同様の
音声認識の信号処理を行い、認識した文節の文字コード
情報S2を出力する。
【0021】方言標準語変換部3は、前述した様に、特
定地域の方言を標準語に変換する変換マップを複数地域
について有し、地域コード設定部5より供給する地域コ
ード情報LACで定める変換マップを使用して、認識し
た方言を含む文節の文字コード情報S2を標準語の文節
に変換し、変換した標準語文節の文字コード情報S3を
出力する。この動作の詳細は後述する。
【0022】機能コード変換部4は、変換した標準語文
節の文字コード情報S3で定まる各種機能の動作を制御
するコード情報への変換を行い、制御情報S4を出力す
る。
【0023】機器制御部10は、制御情報S4に対応す
る機器の動作の制御を行う。
【0024】一方、機器制御部10から出力した制御情
報S4は、機能コード逆変換部6で対応する標準語文節
の情報に変換する処理を行い、標準語文節の文字コード
情報S5を出力する。
【0025】標準語方言変換部7は、前述した様に、標
準語を特定地域の方言に変換する変換マップを複数地域
について有し、地域コード設定部5より供給する地域コ
ード情報LACで定める変換マップを使用して、標準語
文節を指定地域の方言を含む文節に変換し、変換した方
言の文節の文字コード情報S6を出力する。この動作の
詳細についても後述する。
【0026】音声合成部8は、従来技術と同様の音声合
成の信号処理を行い、方言を含む会話音声の信号S7を
出力する。そして、この信号をスピーカ9に供給して、
合成音声S8を再生する。
【0027】この結果、より自然で親しみやすいマンマ
シンインタフェースやユーザインタフェースが実現でき
る。
【0028】以上で各実施例のブロック構成による説明
を終え、以下では、各部の構成や動作について説明す
る。
【0029】図4は、音声認識部の一構成例で、従来技
術で容易に実現できるものである。
【0030】図中の特徴抽出部11は、音素認識のため
の特徴パラメタ(例えばスペクトログラム情報,ピッチ
周波数,ストレスの強さなどの韻律的情報など)の計算
を行う。音素認識部12は、パターンマッチングに基づ
く音素認識アルゴリズムやスペクトログラムリーディン
グ情報に基づく音素認識アルゴリズムによって音素認識
を行う。ワードスポッティング部13は、音素をもとに
キーワードのワードスポッティングの処理を行う。そし
て、文節処理部14は、キーワードのワードスポッティ
ングに基づいて連続単語認識処理を行い、認識した文節
の文字コード情報S2を出力する。
【0031】図5は、音声合成部の一構成例で、従来技
術で容易に実現できるものである。
【0032】文節の文字コード情報S6は、テキスト解
析部15で音韻を表す記号列やアクセント情報,ポーズ
やアクセント句の境界を示す記号に変換する。韻律設定
部16は、合成音声のピッチパターンや音韻時間長パタ
ーンなどの韻律情報を設定する。音声パラメタ設定部1
7は、接続すべき音声単位の列に分解し、該当する音声
単位を音声単位ファイルから選択し、設定された韻律情
報を付加して、合成パラメタ系列を生成する。音声合成
器18は、韻律情報で規定された音源波形で、パラメタ
表現された音道伝送フィルタを駆動して合成波形を生成
し、会話音声の信号S7を出力する。
【0033】図6は、方言標準語変換部におけるデータ
ファイル構成の一例である。データファイルは地域コー
ド情報LACで定まる該当地域(図ではLACが000
では東京地区、001では名古屋地区、002では関西
地区,…、00Xでは沖縄地区)に対応する方言を標準
語に変換する変換マップの集積で構成する。したがっ
て、該当地域の変換マップの設定は、地域コード情報L
ACを指定することができる。また、この各変換マップ
では、方言を含む文節の文字コード情報と、これに対応
する標準語の文節の文字コード情報のデータとは1対1
に対応する。したがって、方言を含む文節の文字コード
情報をキーワードとする変換マップの検索で、これに対
応する標準語の文節の文字コード情報への変換が簡単に
できる。例えば入力の方言を含む文節の文字コード情報
○○△▽,◇△○△の時は、これをキーワードに変換マ
ップを検索し、それぞれ対応する標準語の文節の文字コ
ード情報○△,◇△に簡単に変換できる。
【0034】図7は、標準語方言変換部におけるデータ
ファイル構成の一例である。データファイルは地域コー
ド情報LACで定まる該当地域(図ではLACが000
では東京地区、001では名古屋地区、002では関西
地区,…、00Xでは沖縄地区)に対応する方言に標準
語を変換する変換マップの集積で構成する。したがっ
て、該当地域の変換マップの設定は、地域コード情報L
ACを指定することができる。また、この各変換マップ
では、標準語の文節の文字コード情報と、これに対応す
る方言を含む文節の文字コード情報とのデータとは1対
1に対応する。したがって、標準語の文節の文字コード
情報をキーワードとする変換マップの検索で、これに対
応する方言を含む文節の文字コード情報への変換が簡単
にできる。例えば入力の標準語の文節の文字コード情報
○△,◇△の時は、これをキーワードに変換マップを検
索し、それぞれ対応する方言を含む文節の文字コード情
報○○△▽,◇△○△に簡単に変換できる。
【0035】以上述べた地域コード情報で指定する地域
の変換マップを用いた処理で、従来は極めて困難と考え
られていた方言と標準語との相互の変換を極めて容易に
実現する。
【0036】次に、本発明の音声認識・音声合成の方法
を機器のマンマシンインタフェースやユーザインタフェ
ースに適用した例について説明する。
【0037】図8は、テレビジョン受像機のユーザイン
タフェースに適用した一実施例である。図中の音声コン
トローラ部25が、本発明の音声認識・音声合成の方法
で構成したものに相当する。
【0038】チューナ部19は、放送波信号TSをベー
スバンド信号に復調する処理を行い、復調した映像信号
VSと音声信号ASとを出力する。
【0039】映像復調部20は、映像信号VSの輝度・
色信号分離の処理,色信号の復調処理を行い、輝度信号
と2つの色差信号からなる信号S10を出力する。
【0040】画質改善部21は、鮮鋭度向上や雑音除去
などの画質改善処理と3原色信号への変換処理を行い、
3原色RGB信号S11を出力する。そして、画像表示
部22にこの信号の画像を再生する。
【0041】音質改善部23は、明瞭感や臨場感のある
音声への音質改善処理を行い、その出力信号S12を音
声再生部24で再生する。
【0042】音声コントローラ部25は、視聴者の音声
指示にしたがって、チャネル設定や画質設定や音質設定
などの動作の制御を行う。また、視聴者の操作を補助す
るガイド音声などの生成を行う。
【0043】本実施例によれば、より自然で親しみやす
いユーザインタフェースの機能を備えたテレビジョン受
像機が実現できる。なお、実施例ではテレビジョン受像
機を例に説明したが、パソコンなどの情報端末機器装置
にも本発明の音声認識・音声合成の方法を適用し、より
自然で親しみやすいマンマシンインタフェースやユーザ
インタフェースを実現することもできる。
【0044】
【発明の効果】本発明によれば、簡単な信号処理で、方
言などを含む会話音声の音声認識や音声合成を行うこと
ができる。そして、より自然で親しみやすいマンマシン
インタフェースの実現に有効である。
【図面の簡単な説明】
【図1】本発明の第1の実施例のブロック図。
【図2】本発明の第2の実施例のブロック図。
【図3】本発明の第3の実施例のブロック図。
【図4】音声認識部の一構成例のブロック図。
【図5】音声合成部の一構成例のブロック図。
【図6】方言標準語変換部のデータファイル構成の一例
の説明図。
【図7】標準語方言変換部のデータファイル構成の一例
の説明図。
【図8】本発明を適用したテレビジョン受像機の一実施
例のブロック図。
【符号の説明】
1…マイク、2…音声認識部、3…方言標準語変換部、
4…機能コード変換部、5…地域コード設定部、6…機
能コード逆変換部、7…標準語方言変換部、8…音声合
成部、9…スピーカ、10…機能制御部。
フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 H04N 5/60 H04N 5/60 Z (72)発明者 小島 昇 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所マルチメディアシステム 開発本部内 (72)発明者 杉山 雅人 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所マルチメディアシステム 開発本部内 (72)発明者 寺西 謙太郎 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所マルチメディアシステム 開発本部内 (72)発明者 西瀬戸 孝明 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所映像情報メディア事業部 内 (72)発明者 中垣 宣文 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所映像情報メディア事業部 内 (72)発明者 笠原 康弘 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所映像情報メディア事業部 内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】入力音声信号を認識して文字コード情報に
    変換する音声認識の信号処理において、特定地域の方言
    を標準語に変換する変換マップを複数地域について備え
    た方言標準語変換の手段を有し、地域コード情報で複数
    地域の一つの特定地域の変換マップを指定し、上記指定
    した変換マップにより上記文字コード情報の方言を標準
    語に変換する方言標準語変換を行い、入力方言音声信号
    を認識して標準語の文字コード情報に変換する音声認識
    の信号処理を行うことを特徴とする音声認識・音声合成
    装置。
  2. 【請求項2】文字コード情報を音声信号に変換する音声
    合成の信号処理において、標準語を特定地域の方言に変
    換する変換マップを複数地域について備えた標準語方言
    変換の手段を有し、地域コード情報で上記複数地域の変
    換マップのうちの一つの地域の変換マップを指定し、上
    記指定した変換マップにより上記文字コード情報の標準
    語を方言に変換する標準語方言変換を行い、上記標準語
    方言変換出力信号で出力音声信号に変換する信号処理を
    行い、標準語の文字コード情報を上記指定した地域の方
    言の音声信号に変換する音声合成を行うことを特徴とす
    る音声認識・音声合成装置。
  3. 【請求項3】請求項1に記載の入力音声信号を認識して
    文字コード情報に変換する音声認識の信号処理と、請求
    項2に記載の文字コード情報を音声信号に変換する音声
    合成の信号処理とを備えた音声認識・音声合成装置。
  4. 【請求項4】請求項1,2または3に記載の音声認識・
    音声合成方法により入力音声信号の音声認識や出力音声
    ガイド信号の音声合成を行う音声ユーザインタフェース
    機構を備えたテレビジョン受像機。
  5. 【請求項5】請求項1,2または3に記載の音声認識・
    音声合成方法により入力音声信号の音声認識や出力音声
    ガイド信号の音声合成を行う音声ユーザインタフェース
    機構を備えた情報端末機器装置。
JP8051324A 1996-03-08 1996-03-08 音声認識・音声合成装置 Pending JPH09244682A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8051324A JPH09244682A (ja) 1996-03-08 1996-03-08 音声認識・音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8051324A JPH09244682A (ja) 1996-03-08 1996-03-08 音声認識・音声合成装置

Publications (1)

Publication Number Publication Date
JPH09244682A true JPH09244682A (ja) 1997-09-19

Family

ID=12883750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8051324A Pending JPH09244682A (ja) 1996-03-08 1996-03-08 音声認識・音声合成装置

Country Status (1)

Country Link
JP (1) JPH09244682A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008250090A (ja) * 2007-03-30 2008-10-16 Casio Comput Co Ltd 発音学習支援装置及び発音学習支援プログラム
CN105551480A (zh) * 2015-12-18 2016-05-04 百度在线网络技术(北京)有限公司 方言转换方法及装置
JP2020119340A (ja) * 2019-01-24 2020-08-06 京セラ株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN111986675A (zh) * 2020-08-20 2020-11-24 深圳Tcl新技术有限公司 语音对话方法、设备及计算机可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008250090A (ja) * 2007-03-30 2008-10-16 Casio Comput Co Ltd 発音学習支援装置及び発音学習支援プログラム
CN105551480A (zh) * 2015-12-18 2016-05-04 百度在线网络技术(北京)有限公司 方言转换方法及装置
CN105551480B (zh) * 2015-12-18 2019-10-15 百度在线网络技术(北京)有限公司 方言转换方法及装置
JP2020119340A (ja) * 2019-01-24 2020-08-06 京セラ株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN111986675A (zh) * 2020-08-20 2020-11-24 深圳Tcl新技术有限公司 语音对话方法、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
EP1246166B1 (en) Speech recognition based captioning system
JP3083640B2 (ja) 音声合成方法および装置
US7124082B2 (en) Phonetic speech-to-text-to-speech system and method
US20070088547A1 (en) Phonetic speech-to-text-to-speech system and method
US6917911B2 (en) System and method for voice user interface navigation
JPH09244682A (ja) 音声認識・音声合成装置
WO2023276539A1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JP3900892B2 (ja) 合成音声の音質調整方法と音声合成装置
JP2000206987A (ja) 音声認識装置
CA2343071A1 (en) Device and method for digital voice processing
JPH08335096A (ja) テキスト音声合成装置
KR100686085B1 (ko) 학습기능을 갖는 영상기기 및 그 제어방법
JP3060276B2 (ja) 音声合成装置
JP2536169B2 (ja) 規則型音声合成装置
JPH10133678A (ja) 音声再生装置
JPH05224689A (ja) 音声合成装置
JP3162832B2 (ja) 字幕スーパー画面作成装置
JP3292218B2 (ja) 音声メッセージ作成装置
JP2859674B2 (ja) 文字放送受信装置
JP3034554B2 (ja) 日本語文章読上げ装置及び方法
JPH10136260A (ja) 字幕スーパー・タイミング発生装置および方法ならびに字幕スーパー処理装置および方法
JP2000010977A (ja) 翻訳装置
JPH03214197A (ja) 音声合成装置
JP2658068B2 (ja) ボイスプロセツサ
JP3219822B2 (ja) 音声合成用符号化装置及び復号化装置