JP2016507772A

JP2016507772A - 音声データの伝送方法及び装置

Info

Publication number: JP2016507772A
Application number: JP2015549951A
Authority: JP
Inventors: ユ，リヤン
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2012-12-27
Filing date: 2013-07-11
Publication date: 2016-03-10
Anticipated expiration: 2033-07-11
Also published as: CN103903627A; WO2013182118A1; EP2928164A1; CN103903627B; US20160196836A1; EP2928164A4; JP6113302B2

Abstract

音声データの伝送方法及び装置である。該方法は、プリセットの調整しようとするセンテンスデータベースに基づいて、送信端が送信する音声データをモニタリングすることと、上記音声データを調整する必要があることをモニタリングする場合、設定した標準の音声フォーマットに従って、上記音声データを調整することと、調整した音声データを受信端に伝送することと、を含む。上記音声データの伝送方法及び装置により、モバイルユーザが異常な情緒状態にある際通信効果に影響する問題を解決しており、パーソナルイメージの維持に有利であり、仕事効果を改善し、人間関係の能力を向上させる。【選択図】図１

Description

本発明は、移動通信分野に関し、特に音声データの伝送方法及び装置に関する。

現代通信技術の高速発展により、人々の業務範囲を大幅に拡張しており、携帯電話等のモバイルが次第に「グローバルビレッジ」における人々の間の通信及び交流の中で最も重要な手段の一つになる。ユーザは携帯電話等のモバイルを用いて他の人と音声通話して、仕事や生活での大量の複雑な事務を解決する場合、情緒感動又は制御不能の状況が不可避的に出現することにより、通信効果に影響し、ひいては取り返しのつかない結果を引き起こす可能性がある。

通話過程においてユーザが異常な情緒状態、例えば、怒り、腹立等にあると、ユーザ同士の通信に影響しやすい。特に市場販売と広報等の仕事に従事するユーザに対して、通話過程において一時的に情緒制御不能による言語的不正行為により、相手の誤解を引き起こすと、パーソナルイメージと仕事効果に直接に影響する。

関連技術においてモバイルユーザが異常な情緒状態にある場合通信効果の問題に対して、現在、効果的な解決手段を提供することができない。

関連技術においてモバイルユーザが異常な情緒状態にある場合通信効果に影響する問題に対して、本発明の実施例は上記技術的問題を解決するための音声データの伝送方法及び装置を提供する。

本発明の実施例は音声データの伝送方法を提供し、
プリセットの調整しようとするセンテンスデータベースに基づいて、送信端が送信する必要がある音声データをモニタリングすることと、
上記音声データを調整する必要があることをモニタリングした場合、設定した標準の音声フォーマットに従って、上記音声データを調整することと、
調整した音声データを受信端に伝送することと、を含む。

選択的に、プリセットの調整しようとするセンテンスデータベースに基づいて、送信端が送信する音声データをモニタリングするステップは、
上記音声データにおける特徴パラメータを抽出し、上記特徴パラメータと上記調整しようとするセンテンスデータベースに記憶された第1特徴パラメータとがマッチングするかどうかに基づいて、上記音声データをモニタリングすること、及び/又は、
上記音声データでの語彙を抽出し、上記語彙と上記調整しようとするセンテンスデータベースに記憶されたプリセット語彙とがマッチングするかどうかに基づいて、上記音声データをモニタリングすること、を含む。

選択的に、上記音声データを調整する必要があることをモニタリングしたステップの後、上記方法は警報信号を送信することを更に含む。

選択的に、設定した標準の音声フォーマットに従って上記音声データを調整するステップは、
上記音声データの基本周波数パラメータを取得し、設定した標準の音声フォーマットに従って、時間領域同期アルゴリズムと基本周波数調整パラメータにより上記音声データの基本周波数パラメータを調整すること、及び/又は、
上記音声データの音声エネルギーを取得し、設定した標準の音声フォーマットに従って、エネルギー調整パラメータにより上記音声エネルギーを調整すること、及び/又は、
設定した標準の音声フォーマットに従って上記音声データのセンテンスのタイムスパンを延長すること、を含む。

選択的に、設定した標準の音声フォーマットに従って上記音声データを調整するステップは、
上記調整しようとするセンテンスデータベースにおいて上記プリセット語彙に対応する礼儀語彙が存在するかどうかを検索することと、
前記プリセット語彙に対応する礼儀語彙が存在する場合、上記礼儀語彙で上記プリセット語彙を引き替えることと、を含む。

本発明の実施例は音声データの伝送装置を更に提供し、
プリセットの調整しようとするセンテンスデータベースに基づいて、送信端が送信する必要がある音声データをモニタリングするように設定されるモニタリングモジュール、
上記音声データを調整する必要があることをモニタリングした場合、設定した標準の音声フォーマットに従って、上記音声データを調整するように設定される調整モジュール、
調整した音声データを受信端に伝送するように設定される伝送モジュール、を含む。

選択的に、上記モニタリングモジュールは、
上記音声データにおける特徴パラメータを抽出し、上記特徴パラメータと上記調整しようとするセンテンスデータベースに記憶された第1特徴パラメータとがマッチングするかどうかに基づいて、上記音声データをモニタリングするように設定される第1モニタリングユニット、及び/又は、
上記音声データでの語彙を抽出し、上記語彙と上記調整しようとするセンテンスデータベースに記憶されたプリセット語彙とがマッチングするかどうかに基づいて、上記音声データをモニタリングするように設定される第2モニタリングユニット、を含む。

選択的に、上記装置は、
警報信号を送信するように設定される警報モジュールを更に含む。

選択的に、上記調整モジュールは、
上記音声データの基本周波数パラメータを取得し、設定した標準の音声フォーマットに従って、時間領域同期アルゴリズムと基本周波数調整パラメータにより上記音声データの基本周波数パラメータを調整するように設定される第1調整ユニット、及び/又は、
上記音声データの音声エネルギーを取得し、設定した標準の音声フォーマットに従って、エネルギー調整パラメータにより上記音声エネルギーを調整するように設定される第2調整ユニット、及び/又は、
設定した標準の音声フォーマットに従って上記音声データのセンテンスのタイムスパンを延長するように設定される第3調整ユニット、を含む。

選択的に、上記調整モジュールは、
上記調整しようとするセンテンスデータベースにおいて上記プリセット語彙に対応する礼儀語彙が存在するかどうかを検索するように設定される検索ユニット、
上記検索ユニットの搜索結果がはいである場合、上記礼儀語彙で上記プリセット語彙を引き替えるように設定される切替ユニット、を更に含む。

本発明の実施例の方法及び装置により、関連技術においてモバイルユーザが異常な情緒状態にある場合通信効果に影響する問題を解決し、パーソナルイメージの維持に有利であり、仕事効果を改善し、人間関係の能力を向上させる。

図1 は本発明の実施例による音声データの伝送方法のフローチャートである。図2 は本発明の実施例による音声データの伝送装置の構造ブロック図である。図3 は本発明の実施例による音声データの伝送装置の第1の具体的な構造ブロック図である。図4は本発明の実施例による音声データの伝送装置の好ましい構造ブロック図である。図5は本発明の実施例による音声データの伝送装置の第2の具体的な構造ブロック図である。図6は本発明の実施例による調整モジュールの構造模式図である。図7は本発明の実施例による移動端末枠組みの構造ブロック図である。図8は本発明の実施例による感情音声データベースの自己学習過程の模式図である。図9は本発明の実施例による極端なセンテンス補正モジュールにより音声データ調整プロセスを行う模式図である。図10 は本発明の実施例によるセンテンス基音周波数調整効果の模式図である。図11は本発明の実施例によるセンテンスのタイムスパン調整効果の模式図である。図12は本発明の実施例による音声通話の際の情緒制御と調整過程のフローチャートである。

関連技術において移動端末ユーザが悪い情緒にあるので、通信効果に影響する問題を解決するために、本発明の実施例は音声データの伝送方法及び装置を提供し、以下、図面を参照しながら本発明の実施例を更に詳しく説明する。衝突しない場合には、本願における実施例及び実施例における特徴を互いに任意に組み合わせることができる。

本実施は音声データの伝送方法を提供しており、該方法はモバイル側で実現することができる。図1は本発明の実施例による音声データの伝送方法のフローチャートであり、図1に示すように、該方法は、
プリセットの調整しようとするセンテンスデータベースに基づいて、送信端が送信する必要がある音声データをモニタリングするステップS102と、
上記音声データを調整する必要があることをモニタリングした場合、設定した標準の音声フォーマットに従って、上記音声データを調整するステップS104と、
調整した音声データを受信端に伝送するステップS106と、を含む。

上記方法により、関連技術においてモバイルユーザが異常な情緒状態にある場合通信効果に影響する問題を解決しており、パーソナルイメージの維持に有利であり、仕事効果を改善し、人間関係の能力を向上させる。

本実施例において、音声データを調整する必要があるかどうかをモニタリングし、音声データを調整する必要があるかどうかのモニタリングに対して多種の形態で実現することができ、どのような方法を採用しても、音声データを調整する必要があるかどうかをモニタリングできれば、即ち、音声データの送信端ユーザが異常な情緒状態にあるかどうかをモニタリングできれば良い。これに基づいて、本実施例は好ましい実施形態を提供し、即ち、プリセットの調整しようとするセンテンスデータベースに基づいて、送信端が送信する音声データをモニタリングするステップは、上記音声データにおける特徴パラメータを抽出するとともに、上記特徴パラメータと上記調整しようとするセンテンスデータベースに記憶された第1特徴パラメータとがマッチングするかどうかに基づいて、上記音声データをモニタリングすること、及び/又は、上記音声データでの語彙を抽出し、上記語彙と上記調整しようとするセンテンスデータベースに記憶されたプリセット語彙とがマッチングするかどうかに基づいて、上記音声データをモニタリングすること、を含む。上記好ましい実施形態により、送信端が異常な情緒状態にあるかどうかに対するモニタリングを実現し、後続の上記場合での送信端が送信した音声データに対する調整に基礎を提供する。

ユーザが異常な情緒状態（例えば、怒り、立腹等）で、その音声が正常状態での音声と区別があり、このため、上記好ましい実施例において、音声データから抽出した特徴パラメータに基づいて、ユーザが異常な情緒状態にあるかどうかを判断することにより、異常な情緒状態のモニタリング効率と正確度を向上させる。該特徴パラメータとは、話し速度、平均基音、基音範囲、強度、基音変化等であってよい。

また、上記第1特徴パラメータはユーザが異常な情緒状態での特徴パラメータであってよく、上記プリセット語彙はユーザが異常な情緒状態でのみだらな語彙であってよい。勿論、上記特徴パラメータは正常な情緒状態でのユーザが備える特徴パラメータと比較してもよく、2つのものがマッチングしない場合、音声データを調整する。正常な情緒状態での特徴パラメータ、及び異常状態での特徴パラメータは、プリセットの調整しようとするセンテンスデータベースに記憶されることができ、それにより、上記比較操作の実行効率と実行正確度を向上させる。

音声データにはプリセット語彙を含むかどうかをモニタリングする過程は、音声データでの語彙を抽出し、抽出した語彙とプリセット語彙を比較し、比較結果により音声データにプリセット語彙が含まれるかどうかを確定する、という好ましい実施形態により実現することができる。選択的に、上記プリセット語彙はプリセットの調整しようとするセンテンスデータベースに記憶されてもよく、プリセットの調整しようとするセンテンスデータベースでのプリセット語彙を自動的に設定してもよく、送信端の実際な状況によりユーザの要求に応じてプリセット語彙のリアルタイム更新を行ってもよい。

送信端からの音声データを調整する必要があることをモニタリングした、即ち、送信端が異常な情緒状態にあることをモニタリングした後、本実施例は好ましい実施形態を提供し、即ち、警報信号を送信することである。該警報信号は警報音声又は振動であってよく、ユーザが他のユーザと通信交流する際の情緒制御及び機嫌言い回し制御等を提示することに用いられる。

また、警報信号を送信すること、及び音声データをモニタリングすること、という2つの動作の実行タイミングを限定しない。例えば、先に警報信号を送信することができ、送信端のユーザ許可を取得した場合には、音声データを調整するか、又は、警報信号の送信と音声データのモニタリングを同時に実行する。即ち、送信端のユーザは音声データの調整操作を自動的に実行するように設定されてもよく、確定ステップを設定し、警報信号を受信した後、音声データの調整操作を実行するかどうかを確定してもよい。具体的にどのように設定するかは実際な状況に応じて確定することができる。

送信端が送信した音声データを調整する必要があることをモニタリングした、即ち、送信端ユーザが異常な情緒状態にあることをモニタリングした後、該音声データを調整する必要があり、具体的な調整方策は、多種の方法で実現することができ、異常な情緒状態にある送信端ユーザが送信した音声データを正常状態での音声データに調整すれば良い。これに基づいて、本実施例は好ましい実施形態を提供し、即ち、上記音声データの基本周波数パラメータを取得し、設定した標準の音声フォーマットに従って、時間領域同期アルゴリズムと基本周波数調整パラメータにより上記音声データの基本周波数パラメータを調整し、及び/又は、上記音声データの音声エネルギーを取得し、設定した標準の音声フォーマットに従って、エネルギー調整パラメータにより上記音声エネルギーを調整し、及び/又は、設定した標準の音声フォーマットに従って上記音声データのセンテンスのタイムスパンを延長する。

別の調整方法において、調整しようとするセンテンスデータベースにおいてプリセット語彙に対応する礼儀語彙が存在するかどうかを搜索し、プリセット語彙に対応する礼儀語彙が存在する場合、礼儀語彙でプリセット語彙を引き替える。

上記2種の調整方式に対して、上記音声データにおいてプリセット語彙の2種のモニタリング方法が含まれるかどうかにより選択的に実行することができるか、又は、実際な状況により具体的に確定することができる。上記好ましい実施形態により、悪い情緒状態での音声データの調整を実現し、それにより、悪い情緒が通信交流に対する不良影響を避けて、パーソナルイメージの維持に有利であり、仕事効果を改善し、人間関係の能力を向上させる。

上記実施例に説明する音声データの伝送方法に対応して、本発明の実施例は音声データの伝送装置を提供し、該装置はモバイル側に設置されることができ、上記実施例を実現することに用いられる。図2は本発明の実施例による音声データの伝送装置の構造ブロック図であり、図2に示すように、該装置は、モニタリングモジュール10、調整モジュール20及び伝送モジュール30を含む。以下、該構造を詳しく説明する。

モニタリングモジュール10は、プリセットの調整しようとするセンテンスデータベースに基づいて、送信端が送信する必要がある音声データをモニタリングするように設定され、
調整モジュール20はモニタリングモジュール10に接続され、上記音声データを調整する必要があることをモニタリングした場合、設定した標準の音声フォーマットに従って、上記音声データを調整するように設定され、
伝送モジュール30は調整モジュール20に接続され、調整した音声データを受信端に伝送するように設定される。

上記装置により、関連技術においてモバイルユーザが異常な情緒状態にある際通信効果に影響する問題を解決しており、パーソナルイメージの維持に有利であり、仕事効果を改善し、人間関係の能力を向上させる。

本実施例において、音声データを調整する必要があるかどうかに対するモニタリングは多種の方法で実現することができ、これに対して、本実施例は好ましい実施形態を提供し、図3に示す音声データの伝送装置の第1の具体的な構造ブロック図において、該装置は上記図2に示す各モジュールを含む以外、上記モニタリングモジュール10に含まれた第1モニタリングユニット12、及び/又は、第2モニタリングユニット14を更に含む。以下、該構造を詳しく説明する。

第1モニタリングユニット12は、上記音声データにおける特徴パラメータを抽出し、上記特徴パラメータと上記調整しようとするセンテンスデータベースに記憶された第1特徴パラメータとがマッチングするかどうかに基づいて、上記音声データをモニタリングするように設定され、及び/又は、
第2モニタリングユニット14は、上記音声データでの語彙を抽出し、上記語彙と上記調整しようとするセンテンスデータベースに記憶されたプリセット語彙とがマッチングするかどうかに基づいて、上記音声データをモニタリングするように設定される。

本好ましい実施形態において、モニタリングモジュール10は第1モニタリングユニット12の構造を採用して音声データを調整する必要があるかどうかをモニタリングしてもよく、又は第2モニタリングユニット14の構造を採用して音声データを調整する必要があるかどうかをモニタリングしてもよく、又は、上記第1モニタリングユニット12及び上記第2モニタリングユニット14の構造をともに採用することにより、モニタリングの正確度を向上させてもよい。図3においてモニタリングモジュール10が第1モニタリングユニット12と第2モニタリングユニット14を含む好ましい構造のみを例として説明する。

音声データを調整する必要があるかどうか、即ち、送信端が異常な情緒状態にあるかどうかのモニタリングに対して、第1モニタリングユニット12は多種の好ましい構造により実現することができ、選択的に、第1モニタリングユニット12は音声データにおける特徴パラメータにより音声データがプリセット条件を満たすかどうかの判断を行うことができ、以下、第1モニタリングユニット12の好ましい構造を説明する。

上記第1モニタリングユニット12は、特徴パラメータと第1特徴パラメータを比較し、該第1特徴パラメータは送信端が異常な情緒状態にある際送信した音声データの特徴パラメータであるように設定される比較サブユニットと、比較結果により音声データを調整する必要があるかどうかを確定するように設定される確定サブユニットと、を含む。

上記好ましい構造により、送信端ユーザが異常な情緒状態にある際のモニタリングの効率と正確度を向上させる。上記特徴パラメータとは話し速度、平均基音、基音範囲、強度、基音変化等であってよい。勿論、上記特徴パラメータは正常な情緒状態でのユーザが備える特徴パラメータと比較してもよく、2つのものがマッチングしない際、音声データを調整する。正常な情緒状態での特徴パラメータ、及び異常状態での特徴パラメータは、プリセットの調整しようとするセンテンスデータベースに記憶されることができ、それにより、上記比較操作の実行効率と実行正確度を向上させる。

プリセット語彙のモニタリングに対して、第2モニタリングユニット14は多種の好ましい構造により実現することができ、選択的に、第2モニタリングユニット14は音声データにプリセット語彙が含まれるかどうかにより、音声データがプリセット条件を満たすかどうかのモニタリングを行うことができ、以下、第2モニタリングユニット14の好ましい構造を説明する。

上記第2モニタリングユニット14は、音声データにおける語彙を抽出するように設定される語彙抽出サブユニットと、上記語彙抽出サブユニットが抽出した上記語彙とプリセット語彙とをマッチングするように設定される語彙比較サブユニットと、比較結果により音声データにプリセット語彙が含まれるかどうかを確定するように設定される語彙確定サブユニットとを含む。選択的に、上記プリセット語彙はプリセットの調整しようとするセンテンスデータベースに記憶されてもよく、且つプリセットの調整しようとするセンテンスデータベースでのプリセット語彙を自動的に設定してもよく、送信端の実際な状況によりユーザの要求に応じてプリセット語彙のリアルタイム更新を行ってもよい。上記好ましい構造により、悪い情緒状態でのモニタリングの効率と正確度を向上させる。

モニタリングモジュール10は音声データを調整する必要があること、即ち、送信端ユーザが異常な情緒状態にあることをモニタリングした後、本実施例は好ましい実施形態を提供し、図4に示すように、上記装置は上記図3に示す各モジュールを含む以外、上記モニタリングモジュール10のモニタリング結果が音声データを調整する必要がある場合には、警報信号を送信するように設定される警報モジュール40を更に含む。該警報信号は警報音声又は振動であってよく、ユーザが他のユーザと通信交流する際の情緒制御及び機嫌言い回し制御等を提示することに用いられる。また、警報信号を送信すること、及び音声データをモニタリングすること、という2つの動作の実行タイミングを限定しない。前に既に説明したため、ここで再び説明しない。

モニタリングモジュール10は音声データを調整する必要があること、即ち、送信端ユーザが異常な情緒状態にあることをモニタリングした後、調整モジュール20は該音声データを調整する必要があり、調整モジュール20の具体的な調整方策は多種の方法で実現することができ、異常な情緒状態で送信端が送信した音声データを正常状態での音声データに調整できればよい。これに基づいて、本実施例は好ましい構造を提供しており、図5に示す音声データの伝送装置の第2の具体的な構造ブロック図において、該装置は上記図3に示す各モジュールを含む以外、上記調整モジュール20に含まれた第1調整ユニット22、第2調整ユニット24及び第3調整ユニット26を更に含む。以下、該構造を説明する。

第1調整ユニット22は、上記音声データの基本周波数パラメータを取得し、設定した標準の音声フォーマットに従って、時間領域同期アルゴリズムと基本周波数調整パラメータにより上記音声データの基本周波数パラメータを調整するように設定され、及び/又は、
第2調整ユニット24は第1調整ユニット22に接続され、上記音声データの音声エネルギーを取得し、設定した標準の音声フォーマットに従って、エネルギー調整パラメータにより上記音声エネルギーを調整するように設定され、及び/又は、
第3調整ユニット26は第2調整ユニット24に接続され、設定した標準の音声フォーマットに従って上記音声データのセンテンスのタイムスパンを延長するように設定される。

図4において、上記調整モジュール20が上記3つの調整ユニットを含むことを例として説明する。

また、本実施例は好ましい構造を更に提供し、図6に示すように、上記調整モジュール20は、上記調整しようとするセンテンスデータベースにおいて上記プリセット語彙に対応する礼儀語彙が存在するかどうかを検索するように設定される検索ユニット21と、上記検索ユニットの搜索結果がはいである場合、上記礼儀語彙により上記プリセット語彙を引き替えるように設定される切替ユニット23と、を更に含む。

上記好ましい構造により、異常な情緒状態での音声データに対する調整を実現し、それにより、異常な情緒が通信交流に対する不利な影響を避けて、パーソナルイメージの維持に有利であり、仕事効果を改善し、人間関係の能力を向上させる。

上記実施例に説明する音声データの伝送装置に基づいて、以下、好ましい実施例により音声データの伝送方法を説明する。図7は本発明の実施例による移動端末枠組みの構造ブロック図であり、該移動端末枠組みは、音声入力装置（図7に示さない）、音声緩衝領域、音声感情識別モジュール、感情音声データベース、提示モジュール、極端なセンテンス補正モジュール、みだらな語彙データベース、及び音声符号化モジュールを含む。各モジュールの基本的な機能及び特徴に対して、以下、それぞれ説明する。

音声入力装置は、一定のサンプリング周波数、通路、及びbitにより、送信端から音声情報を受信するように設定される。電話の音声周波数範囲が約60〜3400HZ程度であるため、サンプリングレートは一般的に8KHZを取る。声音は携帯電話のマイクから入力され、8KHZのサンプリングレート、及び16bitのモノラルオーディオフォーマットにより、標準のパルス符号化変調（Pulse-Code Modulation、PCMと略称する）符号化フォーマットのWAVファイルに記録され、音声緩衝領域に記憶される。

音声緩衝領域は、入力装置で入力された非圧縮音声ファイルを受信して記憶し、後続のモジュールで解析及び処理を行うように設定される。

音声感情識別モジュールの主要機能は上記実施例におけるモニタリングモジュール10の機能に相当し、音声感情識別モジュールは、音声緩衝領域内の音声データの感情特徴パラメータをリアルタイムに抽出し、且つ感情特徴パラメータにより送信端ユーザが通話する際の情緒が制御不能（即ち、異常な情緒状態にある）であるかどうかを判断して識別するとともに、この際の通話にはみだらな語彙が存在するかどうかを判断するように設定される。

人は怒り又は立腹等の異常な情緒状態にある際、情緒が一般的に制御不能である。音響学の専門家の研究により、人は怒り、恐怖、ハッピーの感情状態で、交感神経が主要な役割を果たし、主に音声が大きく、話し速度が速く、発音エネルギーが大きいと表現する。しかし、人は怒り状態にある際、主にピッチが大きく、且つ変化が大きく、一般的にセンテンスヘッドの基本周波数が低く、センテンス末尾の基本周波数が高いと表現する。また、音声には多い重度の音節が含まれるが、最後の単語は強調されない。表1に説明するのは一般的な感情特徴パラメータである。声帯を一回開閉する時間、即ち振動周期はピッチ周期又は基音周期（pitch period）と称し、その逆数を基音周波数とし、基本周波数と略称してもよい。

表2はユーザが怒り状態にある際の感情特徴パラメータの特徴であり、これらの感情特徴パラメータによりユーザの情緒が怒りであるかどうかを識別することができる。

また、一部の人々は他人と対話する際、無意識のうちにみだらな語彙を話す習慣があり、話者が意図を持っていないが、リスナーが興味を持っている。このように無意識のうちに矛盾、誤解が発生し、パーソナルイメージに影響するだけでなく、更に人間関係に影響するので、該音声感情識別モジュールは情緒を判断する以外、更にみだらな語彙ベースと比較して、この際のセンテンスにはみだらな語彙が含まれるかどうかを判断し、みだらな語彙があると、みだらな語彙の位置を標記する。該音声感情識別モジュールは通話過程においてユーザが怒り状態にある及びみだらな用語を含むとモニタリングした場合、いずれも携帯電話の提示モジュールを触発し、ユーザに情緒の調整と用語の注意を提示し、情緒制御不能により他人に対する言語損傷を避ける。

提示モジュールの主要機能は上記実施例での警報モジュール40の機能に相当し、提示モジュールは、振動又は警報音声の方法で、ユーザに通話過程において情緒が感動であるかどうか又はみだらな語彙を含むかどうかを提示するように設定される。該提示モジュールにより、ユーザはタイムリーに自身の情緒を制御しやすい。

感情音声データベースの主要機能は上記実施例における比較サブユニットに必要な正常情緒の特徴パラメータ、及び上記実施例における検索ユニットに必要な礼儀語彙を記憶することである。図8は本発明の実施例による感情音声データベースの自己学習過程模式図であり、図8に示すように、感情音声データベースは自己学習能力を設定することができる。携帯電話は工場から生産されるばかり、携帯電話に記憶された感情音声データベースは年齢、性別等の要素により作成された、異なる人々に符合する感情音声データベースであり、正常に通話する際の感情特徴パラメータ、怒って通話する際の感情特徴パラメータ、及び礼儀用語語彙ベースを含む。ここで、正常に通話する際の感情特徴パラメータが記憶された感情音声データベースを、正常な音声データベースと定義し、怒る際の感情特徴パラメータが記憶された感情音声データベースを、怒り音声データベースと定義する。携帯電話を生産した後、ユーザで使用された後、初めに感情音声データベースの初期セットアップによりユーザの情緒を判断するが、同時に感情音声データベースは自己学習によりユーザの正常な通話と怒る際の通話の場合の感情特徴パラメータを補正して調整し、最後に２組のパラメータを比較し、調整パラメータを取得し、後続のモジュールが怒りセンテンスを調整することに用いられる。また、怒り音声データベースは更に怒り状態にある際のセンテンスとセンテンスの間の最小間隔時間Tを統計することに用いられ、後続に怒りセンテンスを調整するために準備する。

みだらな語彙データベースの主要機能は上記のみだらな語彙ベースの機能に相当し、みだらな語彙データベースは、公知のみだらな語彙を記憶するように設定され、同時に、該みだらな語彙データベースの主要機能は上記実施例における第2モニタリングユニット14の機能に相当し、みだらな語彙データベースは更に、ユーザが通話過程において、みだらな語彙が存在するかどうかを判断するように設定される。該みだらな語彙データベースは携帯電話を生産する際既に公知のみだらな語彙を設定しており、ユーザは日常の使用過程において、手動入力又はネットワークによりこのみだらな語彙データベースにおけるみだらな語彙に添加又は削除等の更新操作を実行することができる。

極端なセンテンス補正モジュールの主要機能は上記実施例における調整モジュール20の機能に相当し、極端なセンテンス補正モジュールは、ユーザが怒り等の異常な情緒状態にある際のセンテンスを調整するように設定される。図9は本発明の実施例による極端なセンテンス補正モジュールにより音声データ調整プロセスを行う模式図であり、図9に示すように、該プロセスは以下のステップを含む。

ステップ1、音声感情識別モジュールで標記されたユーザ入力センテンスにおけるみだらな語彙の位置により、みだらな語彙を切り替え、まず、礼儀用語語彙ベースにおいて適合な切り替え単語があるかどうかを搜索し、あると、みだらな語彙を切り替え、ないと、標記されたみだらな語彙の位置を保留する。

ステップ2、センテンスの基本周波数パラメータを調整する。正常に通話する際のセンテンスの基本周波数が比較的に均一で、怒る際の通話の基本周波数の基本周波数値が正常の場合よりも高くし、且つ突然変化があるため、時間領域ピッチ同期オーバーラップ（Time Domain Pitch Synchronous Overlap Add，TD-PSOLA）アルゴリズムにより、感情音声データベースで統計された基本周波数調整パラメータを参照して、怒る際のセンテンス全体の基本周波数を正常な音声の際の基本周波数に調整することができる。図10は本発明の実施例によるセンテンス基音周波数調整効果の模式図であり、図10に示すように、基本周波数の調整後、基音周波数が小さくなり、怒る際の通話の基本周波数を正常な通話の基本周波数に調整する。

上記TD-PSOLAアルゴリズムは、
怒る際の音声の基音周期を抽出し、基音標記を行う第1ステップ、
感情音声データベースにおける基本周波数調整因子により、怒る際のセンテンス全体の基本周波数を正常な音声の際の基本周波数に調整する第2ステップ、
修正した基本要素を一定のスムージングアルゴリズムによりスプライシングする第3ステップ、という3つのステップに分けられて基音周波数の調整を完成することができる。

ステップ3、センテンスのエネルギーを調整する。ある時間のエネルギーに係数を掛けることによりエネルギーを拡大または縮小し、この際の係数は感情音声データベースに既に統計されたものであってもよく、ステップ2で出力された音声ストリームにこの係数をかけて、ステップ1においてみだらな語彙が置換されないと、ここで、みだらな語彙の音声エネルギーに小さい係数をかけて、それにより、被呼者はみだらな語彙を聞き取りにくい。

ステップ4、センテンスのタイムスパンを調整することによりセンテンスを調整する。ユーザは怒り等の異常な情緒状態にある際のバイトの発音のタイムスパンが正常の場合よりも短い。また、パケット損失現象を避けるために、怒る際のセンテンスを適合に延長することにより、怒り効果を緩和することができ、タイムスパンの調整もTD-PSOLAアルゴリズムを採用することができる。

図11は本発明の実施例によるセンテンスのタイムスパン調整効果の模式図であり、図11に示すように、センテンスのタイムスパンを調整した後、タイムスパンを元の音声タイムスパンの1.5倍に増加する。なお、タイムスパンの変換は感情データベースに統計された怒りセンテンス間の最小間隔時間T値よりも小さい。

上記4つのステップの処理を行った後、極端なセンテンスの補正を完成し、極端なセンテンス補正モジュールで処理された音声データは怒り情緒の要素とみだらな語彙を含まない。

音声符号化モジュールの主要機能は圧縮されない音声データをネットワーク伝送に適合するamr音声フォーマットに圧縮することである。

上記実施例に説明する移動端末枠組みの構造に基づいて、以下、好ましい実施例により移動端末枠組みにおける音声データの伝送方法を説明する。ユーザは通話の過程において、声音は携帯電話のマイクから入力され、一定のサンプリングレート、bit、及びチャンネルにより非圧縮の音声ファイルに記録され、音声緩衝領域に記憶されて音声感情識別モジュールで処理され、音声感情識別モジュールは音声緩衝領域における音声データの特徴パラメータを抽出し、音声データの特徴パラメータと感情音声データベースにおける特徴パラメータを比較し、この際のユーザの情緒を判断し、この際のユーザの情緒が感動で、且つ怒り等の異常な情緒状態にあると、この音声感情識別モジュールは提示モジュールを触発して携帯電話を振動させることにより、ユーザにタイムリーに情緒を調整するように提示し、情緒の制御不能を避ける。ユーザの情緒を判断する同時に、感情音声データベースもユーザのこの際の音声特徴パラメータと怒る際のセンテンス間の最小間隔時間T値を統計するとともに、基本データベースのデータを補正して調整し、それにより、この音声感情識別モジュールはユーザの情緒をより簡単でより正確的に識別し、調整パラメータを生成し、該調整パラメータを後続に怒りセンテンスを調整する際の調整パラメータとすることができる。また、この音声感情識別モジュールは更にみだらな語彙とみだらな語彙ベースにおけるみだらな語彙を比較し、通話にはみだらな用語があるかどうかを探し、みだらな用語があると、提示モジュールを触発して携帯電話を振動させ、ユーザに言葉を注意するように提示する。音声感情識別モジュールはこの際ユーザが怒るか又はみだらな用語があると判断すると、いずれも極端なセンテンス補正モジュールがセンテンスに補正処理を行う必要があり、この際の怒りセンテンスの基本周波数、エネルギー、タイムスパンを調整することにより、怒りセンテンスを正常な情緒の際のセンテンスに変換する。みだらな用語が含まれると、みだらな用語の音量を低減し、みだらな用語を弱める。補正し終わった後、補正した音声データを音声符号化モジュールに伝送し、音声データをネットワーク伝送に適合するamrフォーマットにコンパイルし、更に携帯電話のアンテナでネットワーク端に発信する。音声感情識別モジュールはユーザが怒らないとともにみだらな語彙を含まないことを判断すると、音声データは音声符号化モジュールに直接に伝送されて、amrフォーマットに符号化され、携帯電話のアンテナでネットワーク端に発信される。

以下、図面と好ましい実施例により、本発明の技術的解決手段を詳しく説明する。

本実施例は「今日の仕事を必ず完成する」を例として音声通話の際の情緒制御と調整の過程を記述し、図12は本発明の実施例による音声通話の際の情緒制御と調整過程のフローチャートであり、図12に示すように、該過程は以下のステップ（ステップS1002〜ステップS1010）を含む。

ステップS1002、ユーザが通話する際、通話のセンテンス内容が「今日の仕事を必ず完成する」であり、音声入力装置はマイクロフォンによりユーザの音声を標準の非圧縮音声データに記録し、該音声データを音声緩衝領域に記憶して音声感情識別モジュールで処理する。

ステップS1004、音声感情識別モジュールは該センテンスを識別して判断し、ユーザが異常な情緒状態にあるかどうか、且つセンテンスにみだらな語彙が含まれるかどうかを確定する。そうであると、ステップS1006を実行し、そうではないと、ステップS1010を実行する。

まず、該センテンスの感情特徴パラメータを抽出し、該感情特徴パラメータと感情音声データベースに記憶された感情特徴パラメータを比較し、この際のユーザの情緒が極端なものであると、この音声感情識別モジュールは該センテンスの全体基本周波数、特に「必ず」という2つの音節が正常な音声データベースにおける基本周波数よりも速いと判断することができる。また、センテンス全体のエネルギー、特に「必ず」という2つの音節が正常な音声データベースにおけるエネルギーよりも高い。また、該センテンスにおける各音節のタイムスパン、特に「必ず」という2つの音節が正常な音声データベースにおけるタイムスパンよりも短い。音声感情識別モジュールはこれらの特徴によりこの際のユーザの情緒極端を判断し、提示モジュールを触発して携帯電話を振動させて又は警報音声を発声し、それにより、ユーザのこの際の情緒極端を提示する。

この際、ユーザの情緒が正常であると、音声感情識別モジュールはこのセンテンス全体の基本周波数、エネルギー、タイムスパンと正常な音声データベースにおける特徴パラメータ値との差が大きくないことを判断する。また、各音節の特徴パラメータ値の間の差が大きくないので、突然変化がない。これらの特徴によりこの際のユーザの情緒が正常であると判断することができ、直接にステップS1010に転移して処理することができる。また、音声感情識別モジュールは更にこの際のユーザ通話過程にはみだらな語彙があるかどうかを判断し、この際、明らかにみだらな語彙が含まない。

ステップS1006、提示モジュールは携帯電話の振動又は警報音声の発声を触発し、ユーザのこの際の情緒極端を提示する。

ステップS1008、上記ステップS1004においてこの際のユーザの情緒怒りを判断すると、極端なセンテンス補正モジュールによりセンテンスを調整する必要がある。

まず、このセンテンスの基本周波数を全体にダウンし、特に「必ず」という2つの音節の基本周波数を正常な音声の際の基本周波数に調整し、このセンテンスの各音節に係数をかけて、このセンテンスのエネルギーを正常な音声のエネルギー値に調整し、TD-PSOLAアルゴリズムによりこのセンテンスにおける各音節を正常な音声の際のタイムスパンに延長し、調整した後、更にこのセンテンスを音声符号化モジュールに伝送して処理する。

ステップS1010、ステップS1004においてこの際のユーザの情緒が正常であることを判断すると、直接にこのセンテンスを音声符号化モジュールに伝送することができ、音声符号化モジュールにより音声データをamrフォーマットに符号化してネットワーク端に送信する。

最終に、被呼者が受信された「今日の仕事を必ず完成する」の音声データは正常情緒の際に表現した効果と基本的に一致であるとともに、情報不足の状況が出現しなく、ユーザのイメージ、及びユーザの人間関係を維持することに有利である。

以上の記述から分かるように、本発明の実施例においてリアルタイムに音声通話過程における情緒と言葉をモニタリングし、且つ必要に応じて音声情緒を制御して調整し、最終に移動で音声通話過程における情緒に対する制御と調整を実現することにより、パーソナルイメージを維持し、仕事効果を改善し、人間関係の能力を向上させるという目的を果たす。

当業者は、上記方法における全部又は一部のステップは、プログラムが関連のハードウェアを指令することにより完成することができ、前記プログラムはコンピュータ可読記憶媒体、例えば読み出し専用メモリ、ディスク又はＣＤなどに記憶することができることを理解することができる。選択的に、上記実施例の全部又は一部のステップは、１つ又は複数の集積回路を採用して達成することもできる。対応的には、上記実施例における各モジュール／ユニットはハードウェアの形式で達成してよく、ソフトウェア機能モジュールの形式で達成してもよい。本発明はいずれの特定形式のハードウェアとソフトウェアの組み合わせに限定されたものではない。

例示するために、既に本発明の好ましい実施例を開示したが、当業者は各種の改良、増加及び切り替えも可能なものであることを意識することができ、このため、本発明の範囲は上記実施例に限定しないべきである。

本発明の実施例の方法及び装置により、関連技術におけるモバイルユーザが異常な情緒状態にある際通信効果に影響する問題を解決しており、パーソナルイメージの維持に有利であり、仕事効果を改善し、人間関係の能力を向上させる。

Claims

プリセットの調整しようとするセンテンスデータベースに基づいて、送信端の送信する必要がある音声データをモニタリングすることと、
前記音声データを調整する必要があることをモニタリングした場合、設定した標準の音声フォーマットに従って、前記音声データを調整することと、
調整した音声データを受信端に伝送することと、を含む音声データの伝送方法。
プリセットの調整しようとするセンテンスデータベースに基づいて、送信端により送信される音声データをモニタリングするステップは、
前記音声データにおける特徴パラメータを抽出し、前記特徴パラメータと前記調整しようとするセンテンスデータベースに記憶された第1特徴パラメータとがマッチングするかどうかに基づいて、前記音声データをモニタリングすること、及び/又は、
前記音声データの中の語彙を抽出し、前記語彙と前記調整しようとするセンテンスデータベースに記憶されたプリセット語彙とがマッチングするかどうかに基づいて、前記音声データをモニタリングすること、を含む請求項1に記載の方法。
前記音声データを調整する必要があることをモニタリングしたステップの後、警報信号を送信することを更に含む請求項1に記載の方法。
設定した標準の音声フォーマットに従って前記音声データを調整するステップは、
前記音声データの基本周波数パラメータを取得し、設定した標準の音声フォーマットに従って、時間領域同期アルゴリズムと基本周波数調整パラメータにより前記音声データの基本周波数パラメータを調整すること、及び/又は、
前記音声データの音声エネルギーを取得し、設定した標準の音声フォーマットに従って、エネルギー調整パラメータにより前記音声エネルギーを調整すること、及び/又は、
設定した標準の音声フォーマットに従って前記音声データのセンテンスのタイムスパンを延長すること、を含む請求項1に記載の方法。
設定した標準の音声フォーマットに従って前記音声データを調整するステップは、
前記調整しようとするセンテンスデータベースにおいて前記プリセット語彙に対応する礼儀語彙が存在するかどうかを検索することと、
前記プリセット語彙に対応する礼儀語彙が存在する場合、前記礼儀語彙で前記プリセット語彙を引き替えることと、を含む請求項2に記載の方法。
プリセットの調整しようとするセンテンスデータベースに基づいて、送信端の送信する必要がある音声データをモニタリングするように設定されるモニタリングモジュールと、
前記音声データを調整する必要があることをモニタリングした場合、設定した標準の音声フォーマットに従って、前記音声データを調整するように設定される調整モジュールと、
調整した音声データを受信端に伝送するように設定される伝送モジュールと、を含む音声データの伝送装置。
前記モニタリングモジュールは、
前記音声データにおける特徴パラメータを抽出し、前記特徴パラメータと前記調整しようとするセンテンスデータベースに記憶された第1特徴パラメータとがマッチングするかどうかに基づいて、前記音声データをモニタリングするように設定される第1モニタリングユニット、及び/又は、
前記音声データの中の語彙を抽出し、前記語彙と前記調整しようとするセンテンスデータベースに記憶されたプリセット語彙とがマッチングするかどうかに基づいて、前記音声データをモニタリングするように設定される第2モニタリングユニット、を含む請求項6に記載の装置。
警報信号を送信するように設定される警報モジュールを更に含む請求項6に記載の装置。
前記調整モジュールは、
前記音声データの基本周波数パラメータを取得し、設定した標準の音声フォーマットに従って、時間領域同期アルゴリズムと基本周波数調整パラメータにより前記音声データの基本周波数パラメータを調整するように設定される第1調整ユニット、及び/又は、
前記音声データの音声エネルギーを取得し、設定した標準の音声フォーマットに従って、エネルギー調整パラメータにより前記音声エネルギーを調整するように設定される第2調整ユニット、及び/又は、
設定した標準の音声フォーマットに従って前記音声データのセンテンスのタイムスパンを延長するように設定される第3調整ユニット、を含む請求項6に記載の装置。
前記調整モジュールは、
前記調整しようとするセンテンスデータベースにおいて前記プリセット語彙に対応する礼儀語彙が存在するかどうかを検索するように設定される検索ユニットと、
前記検索ユニットの搜索結果が存在するの場合、前記礼儀語彙で前記プリセット語彙を引き替えるように設定される切替ユニットとを更に含む請求項7に記載の装置。