JP2016507772A - 音声データの伝送方法及び装置 - Google Patents

音声データの伝送方法及び装置 Download PDF

Info

Publication number
JP2016507772A
JP2016507772A JP2015549951A JP2015549951A JP2016507772A JP 2016507772 A JP2016507772 A JP 2016507772A JP 2015549951 A JP2015549951 A JP 2015549951A JP 2015549951 A JP2015549951 A JP 2015549951A JP 2016507772 A JP2016507772 A JP 2016507772A
Authority
JP
Japan
Prior art keywords
audio data
vocabulary
adjusted
voice
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015549951A
Other languages
English (en)
Other versions
JP6113302B2 (ja
Inventor
ユ,リヤン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Publication of JP2016507772A publication Critical patent/JP2016507772A/ja
Application granted granted Critical
Publication of JP6113302B2 publication Critical patent/JP6113302B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6025Substation equipment, e.g. for use by subscribers including speech amplifiers implemented as integrated speech networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/18Comparators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2055Line restrictions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/35Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
    • H04M2203/357Autocues for dialog assistance

Abstract

音声データの伝送方法及び装置である。該方法は、プリセットの調整しようとするセンテンスデータベースに基づいて、送信端が送信する音声データをモニタリングすることと、上記音声データを調整する必要があることをモニタリングする場合、設定した標準の音声フォーマットに従って、上記音声データを調整することと、調整した音声データを受信端に伝送することと、を含む。上記音声データの伝送方法及び装置により、モバイルユーザが異常な情緒状態にある際通信効果に影響する問題を解決しており、パーソナルイメージの維持に有利であり、仕事効果を改善し、人間関係の能力を向上させる。【選択図】図1

Description

本発明は、移動通信分野に関し、特に音声データの伝送方法及び装置に関する。
現代通信技術の高速発展により、人々の業務範囲を大幅に拡張しており、携帯電話等のモバイルが次第に「グローバルビレッジ」における人々の間の通信及び交流の中で最も重要な手段の一つになる。ユーザは携帯電話等のモバイルを用いて他の人と音声通話して、仕事や生活での大量の複雑な事務を解決する場合、情緒感動又は制御不能の状況が不可避的に出現することにより、通信効果に影響し、ひいては取り返しのつかない結果を引き起こす可能性がある。
通話過程においてユーザが異常な情緒状態、例えば、怒り、腹立等にあると、ユーザ同士の通信に影響しやすい。特に市場販売と広報等の仕事に従事するユーザに対して、通話過程において一時的に情緒制御不能による言語的不正行為により、相手の誤解を引き起こすと、パーソナルイメージと仕事効果に直接に影響する。
関連技術においてモバイルユーザが異常な情緒状態にある場合通信効果の問題に対して、現在、効果的な解決手段を提供することができない。
関連技術においてモバイルユーザが異常な情緒状態にある場合通信効果に影響する問題に対して、本発明の実施例は上記技術的問題を解決するための音声データの伝送方法及び装置を提供する。
本発明の実施例は音声データの伝送方法を提供し、
プリセットの調整しようとするセンテンスデータベースに基づいて、送信端が送信する必要がある音声データをモニタリングすることと、
上記音声データを調整する必要があることをモニタリングした場合、設定した標準の音声フォーマットに従って、上記音声データを調整することと、
調整した音声データを受信端に伝送することと、を含む。
選択的に、プリセットの調整しようとするセンテンスデータベースに基づいて、送信端が送信する音声データをモニタリングするステップは、
上記音声データにおける特徴パラメータを抽出し、上記特徴パラメータと上記調整しようとするセンテンスデータベースに記憶された第1特徴パラメータとがマッチングするかどうかに基づいて、上記音声データをモニタリングすること、及び/又は、
上記音声データでの語彙を抽出し、上記語彙と上記調整しようとするセンテンスデータベースに記憶されたプリセット語彙とがマッチングするかどうかに基づいて、上記音声データをモニタリングすること、を含む。
選択的に、上記音声データを調整する必要があることをモニタリングしたステップの後、上記方法は警報信号を送信することを更に含む。
選択的に、設定した標準の音声フォーマットに従って上記音声データを調整するステップは、
上記音声データの基本周波数パラメータを取得し、設定した標準の音声フォーマットに従って、時間領域同期アルゴリズムと基本周波数調整パラメータにより上記音声データの基本周波数パラメータを調整すること、及び/又は、
上記音声データの音声エネルギーを取得し、設定した標準の音声フォーマットに従って、エネルギー調整パラメータにより上記音声エネルギーを調整すること、及び/又は、
設定した標準の音声フォーマットに従って上記音声データのセンテンスのタイムスパンを延長すること、を含む。
選択的に、設定した標準の音声フォーマットに従って上記音声データを調整するステップは、
上記調整しようとするセンテンスデータベースにおいて上記プリセット語彙に対応する礼儀語彙が存在するかどうかを検索することと、
前記プリセット語彙に対応する礼儀語彙が存在する場合、上記礼儀語彙で上記プリセット語彙を引き替えることと、を含む。
本発明の実施例は音声データの伝送装置を更に提供し、
プリセットの調整しようとするセンテンスデータベースに基づいて、送信端が送信する必要がある音声データをモニタリングするように設定されるモニタリングモジュール、
上記音声データを調整する必要があることをモニタリングした場合、設定した標準の音声フォーマットに従って、上記音声データを調整するように設定される調整モジュール、
調整した音声データを受信端に伝送するように設定される伝送モジュール、を含む。
選択的に、上記モニタリングモジュールは、
上記音声データにおける特徴パラメータを抽出し、上記特徴パラメータと上記調整しようとするセンテンスデータベースに記憶された第1特徴パラメータとがマッチングするかどうかに基づいて、上記音声データをモニタリングするように設定される第1モニタリングユニット、及び/又は、
上記音声データでの語彙を抽出し、上記語彙と上記調整しようとするセンテンスデータベースに記憶されたプリセット語彙とがマッチングするかどうかに基づいて、上記音声データをモニタリングするように設定される第2モニタリングユニット、を含む。
選択的に、上記装置は、
警報信号を送信するように設定される警報モジュールを更に含む。
選択的に、上記調整モジュールは、
上記音声データの基本周波数パラメータを取得し、設定した標準の音声フォーマットに従って、時間領域同期アルゴリズムと基本周波数調整パラメータにより上記音声データの基本周波数パラメータを調整するように設定される第1調整ユニット、及び/又は、
上記音声データの音声エネルギーを取得し、設定した標準の音声フォーマットに従って、エネルギー調整パラメータにより上記音声エネルギーを調整するように設定される第2調整ユニット、及び/又は、
設定した標準の音声フォーマットに従って上記音声データのセンテンスのタイムスパンを延長するように設定される第3調整ユニット、を含む。
選択的に、上記調整モジュールは、
上記調整しようとするセンテンスデータベースにおいて上記プリセット語彙に対応する礼儀語彙が存在するかどうかを検索するように設定される検索ユニット、
上記検索ユニットの搜索結果がはいである場合、上記礼儀語彙で上記プリセット語彙を引き替えるように設定される切替ユニット、を更に含む。
本発明の実施例の方法及び装置により、関連技術においてモバイルユーザが異常な情緒状態にある場合通信効果に影響する問題を解決し、パーソナルイメージの維持に有利であり、仕事効果を改善し、人間関係の能力を向上させる。
図1 は本発明の実施例による音声データの伝送方法のフローチャートである。 図2 は本発明の実施例による音声データの伝送装置の構造ブロック図である。 図3 は本発明の実施例による音声データの伝送装置の第1の具体的な構造ブロック図である。 図4は本発明の実施例による音声データの伝送装置の好ましい構造ブロック図である。 図5は本発明の実施例による音声データの伝送装置の第2の具体的な構造ブロック図である。 図6は本発明の実施例による調整モジュールの構造模式図である。 図7は本発明の実施例による移動端末枠組みの構造ブロック図である。 図8は本発明の実施例による感情音声データベースの自己学習過程の模式図である。 図9は本発明の実施例による極端なセンテンス補正モジュールにより音声データ調整プロセスを行う模式図である。 図10 は本発明の実施例によるセンテンス基音周波数調整効果の模式図である。 図11は本発明の実施例によるセンテンスのタイムスパン調整効果の模式図である。 図12は本発明の実施例による音声通話の際の情緒制御と調整過程のフローチャートである。
関連技術において移動端末ユーザが悪い情緒にあるので、通信効果に影響する問題を解決するために、本発明の実施例は音声データの伝送方法及び装置を提供し、以下、図面を参照しながら本発明の実施例を更に詳しく説明する。衝突しない場合には、本願における実施例及び実施例における特徴を互いに任意に組み合わせることができる。
本実施は音声データの伝送方法を提供しており、該方法はモバイル側で実現することができる。図1は本発明の実施例による音声データの伝送方法のフローチャートであり、図1に示すように、該方法は、
プリセットの調整しようとするセンテンスデータベースに基づいて、送信端が送信する必要がある音声データをモニタリングするステップS102と、
上記音声データを調整する必要があることをモニタリングした場合、設定した標準の音声フォーマットに従って、上記音声データを調整するステップS104と、
調整した音声データを受信端に伝送するステップS106と、を含む。
上記方法により、関連技術においてモバイルユーザが異常な情緒状態にある場合通信効果に影響する問題を解決しており、パーソナルイメージの維持に有利であり、仕事効果を改善し、人間関係の能力を向上させる。
本実施例において、音声データを調整する必要があるかどうかをモニタリングし、音声データを調整する必要があるかどうかのモニタリングに対して多種の形態で実現することができ、どのような方法を採用しても、音声データを調整する必要があるかどうかをモニタリングできれば、即ち、音声データの送信端ユーザが異常な情緒状態にあるかどうかをモニタリングできれば良い。これに基づいて、本実施例は好ましい実施形態を提供し、即ち、プリセットの調整しようとするセンテンスデータベースに基づいて、送信端が送信する音声データをモニタリングするステップは、上記音声データにおける特徴パラメータを抽出するとともに、上記特徴パラメータと上記調整しようとするセンテンスデータベースに記憶された第1特徴パラメータとがマッチングするかどうかに基づいて、上記音声データをモニタリングすること、及び/又は、上記音声データでの語彙を抽出し、上記語彙と上記調整しようとするセンテンスデータベースに記憶されたプリセット語彙とがマッチングするかどうかに基づいて、上記音声データをモニタリングすること、を含む。上記好ましい実施形態により、送信端が異常な情緒状態にあるかどうかに対するモニタリングを実現し、後続の上記場合での送信端が送信した音声データに対する調整に基礎を提供する。
ユーザが異常な情緒状態(例えば、怒り、立腹等)で、その音声が正常状態での音声と区別があり、このため、上記好ましい実施例において、音声データから抽出した特徴パラメータに基づいて、ユーザが異常な情緒状態にあるかどうかを判断することにより、異常な情緒状態のモニタリング効率と正確度を向上させる。該特徴パラメータとは、話し速度、平均基音、基音範囲、強度、基音変化等であってよい。
また、上記第1特徴パラメータはユーザが異常な情緒状態での特徴パラメータであってよく、上記プリセット語彙はユーザが異常な情緒状態でのみだらな語彙であってよい。勿論、上記特徴パラメータは正常な情緒状態でのユーザが備える特徴パラメータと比較してもよく、2つのものがマッチングしない場合、音声データを調整する。正常な情緒状態での特徴パラメータ、及び異常状態での特徴パラメータは、プリセットの調整しようとするセンテンスデータベースに記憶されることができ、それにより、上記比較操作の実行効率と実行正確度を向上させる。
音声データにはプリセット語彙を含むかどうかをモニタリングする過程は、音声データでの語彙を抽出し、抽出した語彙とプリセット語彙を比較し、比較結果により音声データにプリセット語彙が含まれるかどうかを確定する、という好ましい実施形態により実現することができる。選択的に、上記プリセット語彙はプリセットの調整しようとするセンテンスデータベースに記憶されてもよく、プリセットの調整しようとするセンテンスデータベースでのプリセット語彙を自動的に設定してもよく、送信端の実際な状況によりユーザの要求に応じてプリセット語彙のリアルタイム更新を行ってもよい。
送信端からの音声データを調整する必要があることをモニタリングした、即ち、送信端が異常な情緒状態にあることをモニタリングした後、本実施例は好ましい実施形態を提供し、即ち、警報信号を送信することである。該警報信号は警報音声又は振動であってよく、ユーザが他のユーザと通信交流する際の情緒制御及び機嫌言い回し制御等を提示することに用いられる。
また、警報信号を送信すること、及び音声データをモニタリングすること、という2つの動作の実行タイミングを限定しない。例えば、先に警報信号を送信することができ、送信端のユーザ許可を取得した場合には、音声データを調整するか、又は、警報信号の送信と音声データのモニタリングを同時に実行する。即ち、送信端のユーザは音声データの調整操作を自動的に実行するように設定されてもよく、確定ステップを設定し、警報信号を受信した後、音声データの調整操作を実行するかどうかを確定してもよい。具体的にどのように設定するかは実際な状況に応じて確定することができる。
送信端が送信した音声データを調整する必要があることをモニタリングした、即ち、送信端ユーザが異常な情緒状態にあることをモニタリングした後、該音声データを調整する必要があり、具体的な調整方策は、多種の方法で実現することができ、異常な情緒状態にある送信端ユーザが送信した音声データを正常状態での音声データに調整すれば良い。これに基づいて、本実施例は好ましい実施形態を提供し、即ち、上記音声データの基本周波数パラメータを取得し、設定した標準の音声フォーマットに従って、時間領域同期アルゴリズムと基本周波数調整パラメータにより上記音声データの基本周波数パラメータを調整し、及び/又は、上記音声データの音声エネルギーを取得し、設定した標準の音声フォーマットに従って、エネルギー調整パラメータにより上記音声エネルギーを調整し、及び/又は、設定した標準の音声フォーマットに従って上記音声データのセンテンスのタイムスパンを延長する。
別の調整方法において、調整しようとするセンテンスデータベースにおいてプリセット語彙に対応する礼儀語彙が存在するかどうかを搜索し、プリセット語彙に対応する礼儀語彙が存在する場合、礼儀語彙でプリセット語彙を引き替える。
上記2種の調整方式に対して、上記音声データにおいてプリセット語彙の2種のモニタリング方法が含まれるかどうかにより選択的に実行することができるか、又は、実際な状況により具体的に確定することができる。上記好ましい実施形態により、悪い情緒状態での音声データの調整を実現し、それにより、悪い情緒が通信交流に対する不良影響を避けて、パーソナルイメージの維持に有利であり、仕事効果を改善し、人間関係の能力を向上させる。
上記実施例に説明する音声データの伝送方法に対応して、本発明の実施例は音声データの伝送装置を提供し、該装置はモバイル側に設置されることができ、上記実施例を実現することに用いられる。図2は本発明の実施例による音声データの伝送装置の構造ブロック図であり、図2に示すように、該装置は、モニタリングモジュール10、調整モジュール20及び伝送モジュール30を含む。以下、該構造を詳しく説明する。
モニタリングモジュール10は、プリセットの調整しようとするセンテンスデータベースに基づいて、送信端が送信する必要がある音声データをモニタリングするように設定され、
調整モジュール20はモニタリングモジュール10に接続され、上記音声データを調整する必要があることをモニタリングした場合、設定した標準の音声フォーマットに従って、上記音声データを調整するように設定され、
伝送モジュール30は調整モジュール20に接続され、調整した音声データを受信端に伝送するように設定される。
上記装置により、関連技術においてモバイルユーザが異常な情緒状態にある際通信効果に影響する問題を解決しており、パーソナルイメージの維持に有利であり、仕事効果を改善し、人間関係の能力を向上させる。
本実施例において、音声データを調整する必要があるかどうかに対するモニタリングは多種の方法で実現することができ、これに対して、本実施例は好ましい実施形態を提供し、図3に示す音声データの伝送装置の第1の具体的な構造ブロック図において、該装置は上記図2に示す各モジュールを含む以外、上記モニタリングモジュール10に含まれた第1モニタリングユニット12、及び/又は、第2モニタリングユニット14を更に含む。以下、該構造を詳しく説明する。
第1モニタリングユニット12は、上記音声データにおける特徴パラメータを抽出し、上記特徴パラメータと上記調整しようとするセンテンスデータベースに記憶された第1特徴パラメータとがマッチングするかどうかに基づいて、上記音声データをモニタリングするように設定され、及び/又は、
第2モニタリングユニット14は、上記音声データでの語彙を抽出し、上記語彙と上記調整しようとするセンテンスデータベースに記憶されたプリセット語彙とがマッチングするかどうかに基づいて、上記音声データをモニタリングするように設定される。
本好ましい実施形態において、モニタリングモジュール10は第1モニタリングユニット12の構造を採用して音声データを調整する必要があるかどうかをモニタリングしてもよく、又は第2モニタリングユニット14の構造を採用して音声データを調整する必要があるかどうかをモニタリングしてもよく、又は、上記第1モニタリングユニット12及び上記第2モニタリングユニット14の構造をともに採用することにより、モニタリングの正確度を向上させてもよい。図3においてモニタリングモジュール10が第1モニタリングユニット12と第2モニタリングユニット14を含む好ましい構造のみを例として説明する。
音声データを調整する必要があるかどうか、即ち、送信端が異常な情緒状態にあるかどうかのモニタリングに対して、第1モニタリングユニット12は多種の好ましい構造により実現することができ、選択的に、第1モニタリングユニット12は音声データにおける特徴パラメータにより音声データがプリセット条件を満たすかどうかの判断を行うことができ、以下、第1モニタリングユニット12の好ましい構造を説明する。
上記第1モニタリングユニット12は、特徴パラメータと第1特徴パラメータを比較し、該第1特徴パラメータは送信端が異常な情緒状態にある際送信した音声データの特徴パラメータであるように設定される比較サブユニットと、比較結果により音声データを調整する必要があるかどうかを確定するように設定される確定サブユニットと、を含む。
上記好ましい構造により、送信端ユーザが異常な情緒状態にある際のモニタリングの効率と正確度を向上させる。上記特徴パラメータとは話し速度、平均基音、基音範囲、強度、基音変化等であってよい。勿論、上記特徴パラメータは正常な情緒状態でのユーザが備える特徴パラメータと比較してもよく、2つのものがマッチングしない際、音声データを調整する。正常な情緒状態での特徴パラメータ、及び異常状態での特徴パラメータは、プリセットの調整しようとするセンテンスデータベースに記憶されることができ、それにより、上記比較操作の実行効率と実行正確度を向上させる。
プリセット語彙のモニタリングに対して、第2モニタリングユニット14は多種の好ましい構造により実現することができ、選択的に、第2モニタリングユニット14は音声データにプリセット語彙が含まれるかどうかにより、音声データがプリセット条件を満たすかどうかのモニタリングを行うことができ、以下、第2モニタリングユニット14の好ましい構造を説明する。
上記第2モニタリングユニット14は、音声データにおける語彙を抽出するように設定される語彙抽出サブユニットと、上記語彙抽出サブユニットが抽出した上記語彙とプリセット語彙とをマッチングするように設定される語彙比較サブユニットと、比較結果により音声データにプリセット語彙が含まれるかどうかを確定するように設定される語彙確定サブユニットとを含む。選択的に、上記プリセット語彙はプリセットの調整しようとするセンテンスデータベースに記憶されてもよく、且つプリセットの調整しようとするセンテンスデータベースでのプリセット語彙を自動的に設定してもよく、送信端の実際な状況によりユーザの要求に応じてプリセット語彙のリアルタイム更新を行ってもよい。上記好ましい構造により、悪い情緒状態でのモニタリングの効率と正確度を向上させる。
モニタリングモジュール10は音声データを調整する必要があること、即ち、送信端ユーザが異常な情緒状態にあることをモニタリングした後、本実施例は好ましい実施形態を提供し、図4に示すように、上記装置は上記図3に示す各モジュールを含む以外、上記モニタリングモジュール10のモニタリング結果が音声データを調整する必要がある場合には、警報信号を送信するように設定される警報モジュール40を更に含む。該警報信号は警報音声又は振動であってよく、ユーザが他のユーザと通信交流する際の情緒制御及び機嫌言い回し制御等を提示することに用いられる。また、警報信号を送信すること、及び音声データをモニタリングすること、という2つの動作の実行タイミングを限定しない。前に既に説明したため、ここで再び説明しない。
モニタリングモジュール10は音声データを調整する必要があること、即ち、送信端ユーザが異常な情緒状態にあることをモニタリングした後、調整モジュール20は該音声データを調整する必要があり、調整モジュール20の具体的な調整方策は多種の方法で実現することができ、異常な情緒状態で送信端が送信した音声データを正常状態での音声データに調整できればよい。これに基づいて、本実施例は好ましい構造を提供しており、図5に示す音声データの伝送装置の第2の具体的な構造ブロック図において、該装置は上記図3に示す各モジュールを含む以外、上記調整モジュール20に含まれた第1調整ユニット22、第2調整ユニット24及び第3調整ユニット26を更に含む。以下、該構造を説明する。
第1調整ユニット22は、上記音声データの基本周波数パラメータを取得し、設定した標準の音声フォーマットに従って、時間領域同期アルゴリズムと基本周波数調整パラメータにより上記音声データの基本周波数パラメータを調整するように設定され、及び/又は、
第2調整ユニット24は第1調整ユニット22に接続され、上記音声データの音声エネルギーを取得し、設定した標準の音声フォーマットに従って、エネルギー調整パラメータにより上記音声エネルギーを調整するように設定され、及び/又は、
第3調整ユニット26は第2調整ユニット24に接続され、設定した標準の音声フォーマットに従って上記音声データのセンテンスのタイムスパンを延長するように設定される。
図4において、上記調整モジュール20が上記3つの調整ユニットを含むことを例として説明する。
また、本実施例は好ましい構造を更に提供し、図6に示すように、上記調整モジュール20は、上記調整しようとするセンテンスデータベースにおいて上記プリセット語彙に対応する礼儀語彙が存在するかどうかを検索するように設定される検索ユニット21と、上記検索ユニットの搜索結果がはいである場合、上記礼儀語彙により上記プリセット語彙を引き替えるように設定される切替ユニット23と、を更に含む。
上記好ましい構造により、異常な情緒状態での音声データに対する調整を実現し、それにより、異常な情緒が通信交流に対する不利な影響を避けて、パーソナルイメージの維持に有利であり、仕事効果を改善し、人間関係の能力を向上させる。
上記実施例に説明する音声データの伝送装置に基づいて、以下、好ましい実施例により音声データの伝送方法を説明する。図7は本発明の実施例による移動端末枠組みの構造ブロック図であり、該移動端末枠組みは、音声入力装置(図7に示さない)、音声緩衝領域、音声感情識別モジュール、感情音声データベース、提示モジュール、極端なセンテンス補正モジュール、みだらな語彙データベース、及び音声符号化モジュールを含む。各モジュールの基本的な機能及び特徴に対して、以下、それぞれ説明する。
音声入力装置は、一定のサンプリング周波数、通路、及びbitにより、送信端から音声情報を受信するように設定される。電話の音声周波数範囲が約60〜3400HZ程度であるため、サンプリングレートは一般的に8KHZを取る。声音は携帯電話のマイクから入力され、8KHZのサンプリングレート、及び16bitのモノラルオーディオフォーマットにより、標準のパルス符号化変調(Pulse-Code Modulation、PCMと略称する)符号化フォーマットのWAVファイルに記録され、音声緩衝領域に記憶される。
音声緩衝領域は、入力装置で入力された非圧縮音声ファイルを受信して記憶し、後続のモジュールで解析及び処理を行うように設定される。
音声感情識別モジュールの主要機能は上記実施例におけるモニタリングモジュール10の機能に相当し、音声感情識別モジュールは、音声緩衝領域内の音声データの感情特徴パラメータをリアルタイムに抽出し、且つ感情特徴パラメータにより送信端ユーザが通話する際の情緒が制御不能(即ち、異常な情緒状態にある)であるかどうかを判断して識別するとともに、この際の通話にはみだらな語彙が存在するかどうかを判断するように設定される。
人は怒り又は立腹等の異常な情緒状態にある際、情緒が一般的に制御不能である。音響学の専門家の研究により、人は怒り、恐怖、ハッピーの感情状態で、交感神経が主要な役割を果たし、主に音声が大きく、話し速度が速く、発音エネルギーが大きいと表現する。しかし、人は怒り状態にある際、主にピッチが大きく、且つ変化が大きく、一般的にセンテンスヘッドの基本周波数が低く、センテンス末尾の基本周波数が高いと表現する。また、音声には多い重度の音節が含まれるが、最後の単語は強調されない。表1に説明するのは一般的な感情特徴パラメータである。声帯を一回開閉する時間、即ち振動周期はピッチ周期又は基音周期(pitch period)と称し、その逆数を基音周波数とし、基本周波数と略称してもよい。
Figure 2016507772
表2はユーザが怒り状態にある際の感情特徴パラメータの特徴であり、これらの感情特徴パラメータによりユーザの情緒が怒りであるかどうかを識別することができる。
Figure 2016507772
また、一部の人々は他人と対話する際、無意識のうちにみだらな語彙を話す習慣があり、話者が意図を持っていないが、リスナーが興味を持っている。このように無意識のうちに矛盾、誤解が発生し、パーソナルイメージに影響するだけでなく、更に人間関係に影響するので、該音声感情識別モジュールは情緒を判断する以外、更にみだらな語彙ベースと比較して、この際のセンテンスにはみだらな語彙が含まれるかどうかを判断し、みだらな語彙があると、みだらな語彙の位置を標記する。該音声感情識別モジュールは通話過程においてユーザが怒り状態にある及びみだらな用語を含むとモニタリングした場合、いずれも携帯電話の提示モジュールを触発し、ユーザに情緒の調整と用語の注意を提示し、情緒制御不能により他人に対する言語損傷を避ける。
提示モジュールの主要機能は上記実施例での警報モジュール40の機能に相当し、提示モジュールは、振動又は警報音声の方法で、ユーザに通話過程において情緒が感動であるかどうか又はみだらな語彙を含むかどうかを提示するように設定される。該提示モジュールにより、ユーザはタイムリーに自身の情緒を制御しやすい。
感情音声データベースの主要機能は上記実施例における比較サブユニットに必要な正常情緒の特徴パラメータ、及び上記実施例における検索ユニットに必要な礼儀語彙を記憶することである。図8は本発明の実施例による感情音声データベースの自己学習過程模式図であり、図8に示すように、感情音声データベースは自己学習能力を設定することができる。携帯電話は工場から生産されるばかり、携帯電話に記憶された感情音声データベースは年齢、性別等の要素により作成された、異なる人々に符合する感情音声データベースであり、正常に通話する際の感情特徴パラメータ、怒って通話する際の感情特徴パラメータ、及び礼儀用語語彙ベースを含む。ここで、正常に通話する際の感情特徴パラメータが記憶された感情音声データベースを、正常な音声データベースと定義し、怒る際の感情特徴パラメータが記憶された感情音声データベースを、怒り音声データベースと定義する。携帯電話を生産した後、ユーザで使用された後、初めに感情音声データベースの初期セットアップによりユーザの情緒を判断するが、同時に感情音声データベースは自己学習によりユーザの正常な通話と怒る際の通話の場合の感情特徴パラメータを補正して調整し、最後に2組のパラメータを比較し、調整パラメータを取得し、後続のモジュールが怒りセンテンスを調整することに用いられる。また、怒り音声データベースは更に怒り状態にある際のセンテンスとセンテンスの間の最小間隔時間Tを統計することに用いられ、後続に怒りセンテンスを調整するために準備する。
みだらな語彙データベースの主要機能は上記のみだらな語彙ベースの機能に相当し、みだらな語彙データベースは、公知のみだらな語彙を記憶するように設定され、同時に、該みだらな語彙データベースの主要機能は上記実施例における第2モニタリングユニット14の機能に相当し、みだらな語彙データベースは更に、ユーザが通話過程において、みだらな語彙が存在するかどうかを判断するように設定される。該みだらな語彙データベースは携帯電話を生産する際既に公知のみだらな語彙を設定しており、ユーザは日常の使用過程において、手動入力又はネットワークによりこのみだらな語彙データベースにおけるみだらな語彙に添加又は削除等の更新操作を実行することができる。
極端なセンテンス補正モジュールの主要機能は上記実施例における調整モジュール20の機能に相当し、極端なセンテンス補正モジュールは、ユーザが怒り等の異常な情緒状態にある際のセンテンスを調整するように設定される。図9は本発明の実施例による極端なセンテンス補正モジュールにより音声データ調整プロセスを行う模式図であり、図9に示すように、該プロセスは以下のステップを含む。
ステップ1、音声感情識別モジュールで標記されたユーザ入力センテンスにおけるみだらな語彙の位置により、みだらな語彙を切り替え、まず、礼儀用語語彙ベースにおいて適合な切り替え単語があるかどうかを搜索し、あると、みだらな語彙を切り替え、ないと、標記されたみだらな語彙の位置を保留する。
ステップ2、センテンスの基本周波数パラメータを調整する。正常に通話する際のセンテンスの基本周波数が比較的に均一で、怒る際の通話の基本周波数の基本周波数値が正常の場合よりも高くし、且つ突然変化があるため、時間領域ピッチ同期オーバーラップ(Time Domain Pitch Synchronous Overlap Add,TD-PSOLA)アルゴリズムにより、感情音声データベースで統計された基本周波数調整パラメータを参照して、怒る際のセンテンス全体の基本周波数を正常な音声の際の基本周波数に調整することができる。図10は本発明の実施例によるセンテンス基音周波数調整効果の模式図であり、図10に示すように、基本周波数の調整後、基音周波数が小さくなり、怒る際の通話の基本周波数を正常な通話の基本周波数に調整する。
上記TD-PSOLAアルゴリズムは、
怒る際の音声の基音周期を抽出し、基音標記を行う第1ステップ、
感情音声データベースにおける基本周波数調整因子により、怒る際のセンテンス全体の基本周波数を正常な音声の際の基本周波数に調整する第2ステップ、
修正した基本要素を一定のスムージングアルゴリズムによりスプライシングする第3ステップ、という3つのステップに分けられて基音周波数の調整を完成することができる。
ステップ3、センテンスのエネルギーを調整する。ある時間のエネルギーに係数を掛けることによりエネルギーを拡大または縮小し、この際の係数は感情音声データベースに既に統計されたものであってもよく、ステップ2で出力された音声ストリームにこの係数をかけて、ステップ1においてみだらな語彙が置換されないと、ここで、みだらな語彙の音声エネルギーに小さい係数をかけて、それにより、被呼者はみだらな語彙を聞き取りにくい。
ステップ4、センテンスのタイムスパンを調整することによりセンテンスを調整する。ユーザは怒り等の異常な情緒状態にある際のバイトの発音のタイムスパンが正常の場合よりも短い。また、パケット損失現象を避けるために、怒る際のセンテンスを適合に延長することにより、怒り効果を緩和することができ、タイムスパンの調整もTD-PSOLAアルゴリズムを採用することができる。
図11は本発明の実施例によるセンテンスのタイムスパン調整効果の模式図であり、図11に示すように、センテンスのタイムスパンを調整した後、タイムスパンを元の音声タイムスパンの1.5倍に増加する。なお、タイムスパンの変換は感情データベースに統計された怒りセンテンス間の最小間隔時間T値よりも小さい。
上記4つのステップの処理を行った後、極端なセンテンスの補正を完成し、極端なセンテンス補正モジュールで処理された音声データは怒り情緒の要素とみだらな語彙を含まない。
音声符号化モジュールの主要機能は圧縮されない音声データをネットワーク伝送に適合するamr音声フォーマットに圧縮することである。
上記実施例に説明する移動端末枠組みの構造に基づいて、以下、好ましい実施例により移動端末枠組みにおける音声データの伝送方法を説明する。ユーザは通話の過程において、声音は携帯電話のマイクから入力され、一定のサンプリングレート、bit、及びチャンネルにより非圧縮の音声ファイルに記録され、音声緩衝領域に記憶されて音声感情識別モジュールで処理され、音声感情識別モジュールは音声緩衝領域における音声データの特徴パラメータを抽出し、音声データの特徴パラメータと感情音声データベースにおける特徴パラメータを比較し、この際のユーザの情緒を判断し、この際のユーザの情緒が感動で、且つ怒り等の異常な情緒状態にあると、この音声感情識別モジュールは提示モジュールを触発して携帯電話を振動させることにより、ユーザにタイムリーに情緒を調整するように提示し、情緒の制御不能を避ける。ユーザの情緒を判断する同時に、感情音声データベースもユーザのこの際の音声特徴パラメータと怒る際のセンテンス間の最小間隔時間T値を統計するとともに、基本データベースのデータを補正して調整し、それにより、この音声感情識別モジュールはユーザの情緒をより簡単でより正確的に識別し、調整パラメータを生成し、該調整パラメータを後続に怒りセンテンスを調整する際の調整パラメータとすることができる。また、この音声感情識別モジュールは更にみだらな語彙とみだらな語彙ベースにおけるみだらな語彙を比較し、通話にはみだらな用語があるかどうかを探し、みだらな用語があると、提示モジュールを触発して携帯電話を振動させ、ユーザに言葉を注意するように提示する。音声感情識別モジュールはこの際ユーザが怒るか又はみだらな用語があると判断すると、いずれも極端なセンテンス補正モジュールがセンテンスに補正処理を行う必要があり、この際の怒りセンテンスの基本周波数、エネルギー、タイムスパンを調整することにより、怒りセンテンスを正常な情緒の際のセンテンスに変換する。みだらな用語が含まれると、みだらな用語の音量を低減し、みだらな用語を弱める。補正し終わった後、補正した音声データを音声符号化モジュールに伝送し、音声データをネットワーク伝送に適合するamrフォーマットにコンパイルし、更に携帯電話のアンテナでネットワーク端に発信する。音声感情識別モジュールはユーザが怒らないとともにみだらな語彙を含まないことを判断すると、音声データは音声符号化モジュールに直接に伝送されて、amrフォーマットに符号化され、携帯電話のアンテナでネットワーク端に発信される。
以下、図面と好ましい実施例により、本発明の技術的解決手段を詳しく説明する。
本実施例は「今日の仕事を必ず完成する」を例として音声通話の際の情緒制御と調整の過程を記述し、図12は本発明の実施例による音声通話の際の情緒制御と調整過程のフローチャートであり、図12に示すように、該過程は以下のステップ(ステップS1002〜ステップS1010)を含む。
ステップS1002、ユーザが通話する際、通話のセンテンス内容が「今日の仕事を必ず完成する」であり、音声入力装置はマイクロフォンによりユーザの音声を標準の非圧縮音声データに記録し、該音声データを音声緩衝領域に記憶して音声感情識別モジュールで処理する。
ステップS1004、音声感情識別モジュールは該センテンスを識別して判断し、ユーザが異常な情緒状態にあるかどうか、且つセンテンスにみだらな語彙が含まれるかどうかを確定する。そうであると、ステップS1006を実行し、そうではないと、ステップS1010を実行する。
まず、該センテンスの感情特徴パラメータを抽出し、該感情特徴パラメータと感情音声データベースに記憶された感情特徴パラメータを比較し、この際のユーザの情緒が極端なものであると、この音声感情識別モジュールは該センテンスの全体基本周波数、特に「必ず」という2つの音節が正常な音声データベースにおける基本周波数よりも速いと判断することができる。また、センテンス全体のエネルギー、特に「必ず」という2つの音節が正常な音声データベースにおけるエネルギーよりも高い。また、該センテンスにおける各音節のタイムスパン、特に「必ず」という2つの音節が正常な音声データベースにおけるタイムスパンよりも短い。音声感情識別モジュールはこれらの特徴によりこの際のユーザの情緒極端を判断し、提示モジュールを触発して携帯電話を振動させて又は警報音声を発声し、それにより、ユーザのこの際の情緒極端を提示する。
この際、ユーザの情緒が正常であると、音声感情識別モジュールはこのセンテンス全体の基本周波数、エネルギー、タイムスパンと正常な音声データベースにおける特徴パラメータ値との差が大きくないことを判断する。また、各音節の特徴パラメータ値の間の差が大きくないので、突然変化がない。これらの特徴によりこの際のユーザの情緒が正常であると判断することができ、直接にステップS1010に転移して処理することができる。また、音声感情識別モジュールは更にこの際のユーザ通話過程にはみだらな語彙があるかどうかを判断し、この際、明らかにみだらな語彙が含まない。
ステップS1006、提示モジュールは携帯電話の振動又は警報音声の発声を触発し、ユーザのこの際の情緒極端を提示する。
ステップS1008、上記ステップS1004においてこの際のユーザの情緒怒りを判断すると、極端なセンテンス補正モジュールによりセンテンスを調整する必要がある。
まず、このセンテンスの基本周波数を全体にダウンし、特に「必ず」という2つの音節の基本周波数を正常な音声の際の基本周波数に調整し、このセンテンスの各音節に係数をかけて、このセンテンスのエネルギーを正常な音声のエネルギー値に調整し、TD-PSOLAアルゴリズムによりこのセンテンスにおける各音節を正常な音声の際のタイムスパンに延長し、調整した後、更にこのセンテンスを音声符号化モジュールに伝送して処理する。
ステップS1010、ステップS1004においてこの際のユーザの情緒が正常であることを判断すると、直接にこのセンテンスを音声符号化モジュールに伝送することができ、音声符号化モジュールにより音声データをamrフォーマットに符号化してネットワーク端に送信する。
最終に、被呼者が受信された「今日の仕事を必ず完成する」の音声データは正常情緒の際に表現した効果と基本的に一致であるとともに、情報不足の状況が出現しなく、ユーザのイメージ、及びユーザの人間関係を維持することに有利である。
以上の記述から分かるように、本発明の実施例においてリアルタイムに音声通話過程における情緒と言葉をモニタリングし、且つ必要に応じて音声情緒を制御して調整し、最終に移動で音声通話過程における情緒に対する制御と調整を実現することにより、パーソナルイメージを維持し、仕事効果を改善し、人間関係の能力を向上させるという目的を果たす。
当業者は、上記方法における全部又は一部のステップは、プログラムが関連のハードウェアを指令することにより完成することができ、前記プログラムはコンピュータ可読記憶媒体、例えば読み出し専用メモリ、ディスク又はCDなどに記憶することができることを理解することができる。選択的に、上記実施例の全部又は一部のステップは、1つ又は複数の集積回路を採用して達成することもできる。対応的には、上記実施例における各モジュール/ユニットはハードウェアの形式で達成してよく、ソフトウェア機能モジュールの形式で達成してもよい。本発明はいずれの特定形式のハードウェアとソフトウェアの組み合わせに限定されたものではない。
例示するために、既に本発明の好ましい実施例を開示したが、当業者は各種の改良、増加及び切り替えも可能なものであることを意識することができ、このため、本発明の範囲は上記実施例に限定しないべきである。
本発明の実施例の方法及び装置により、関連技術におけるモバイルユーザが異常な情緒状態にある際通信効果に影響する問題を解決しており、パーソナルイメージの維持に有利であり、仕事効果を改善し、人間関係の能力を向上させる。

Claims (10)

  1. プリセットの調整しようとするセンテンスデータベースに基づいて、送信端の送信する必要がある音声データをモニタリングすることと、
    前記音声データを調整する必要があることをモニタリングした場合、設定した標準の音声フォーマットに従って、前記音声データを調整することと、
    調整した音声データを受信端に伝送することと、を含む音声データの伝送方法。
  2. プリセットの調整しようとするセンテンスデータベースに基づいて、送信端により送信される音声データをモニタリングするステップは、
    前記音声データにおける特徴パラメータを抽出し、前記特徴パラメータと前記調整しようとするセンテンスデータベースに記憶された第1特徴パラメータとがマッチングするかどうかに基づいて、前記音声データをモニタリングすること、及び/又は、
    前記音声データの中の語彙を抽出し、前記語彙と前記調整しようとするセンテンスデータベースに記憶されたプリセット語彙とがマッチングするかどうかに基づいて、前記音声データをモニタリングすること、を含む請求項1に記載の方法。
  3. 前記音声データを調整する必要があることをモニタリングしたステップの後、警報信号を送信することを更に含む請求項1に記載の方法。
  4. 設定した標準の音声フォーマットに従って前記音声データを調整するステップは、
    前記音声データの基本周波数パラメータを取得し、設定した標準の音声フォーマットに従って、時間領域同期アルゴリズムと基本周波数調整パラメータにより前記音声データの基本周波数パラメータを調整すること、及び/又は、
    前記音声データの音声エネルギーを取得し、設定した標準の音声フォーマットに従って、エネルギー調整パラメータにより前記音声エネルギーを調整すること、及び/又は、
    設定した標準の音声フォーマットに従って前記音声データのセンテンスのタイムスパンを延長すること、を含む請求項1に記載の方法。
  5. 設定した標準の音声フォーマットに従って前記音声データを調整するステップは、
    前記調整しようとするセンテンスデータベースにおいて前記プリセット語彙に対応する礼儀語彙が存在するかどうかを検索することと、
    前記プリセット語彙に対応する礼儀語彙が存在する場合、前記礼儀語彙で前記プリセット語彙を引き替えることと、を含む請求項2に記載の方法。
  6. プリセットの調整しようとするセンテンスデータベースに基づいて、送信端の送信する必要がある音声データをモニタリングするように設定されるモニタリングモジュールと、
    前記音声データを調整する必要があることをモニタリングした場合、設定した標準の音声フォーマットに従って、前記音声データを調整するように設定される調整モジュールと、
    調整した音声データを受信端に伝送するように設定される伝送モジュールと、を含む音声データの伝送装置。
  7. 前記モニタリングモジュールは、
    前記音声データにおける特徴パラメータを抽出し、前記特徴パラメータと前記調整しようとするセンテンスデータベースに記憶された第1特徴パラメータとがマッチングするかどうかに基づいて、前記音声データをモニタリングするように設定される第1モニタリングユニット、及び/又は、
    前記音声データの中の語彙を抽出し、前記語彙と前記調整しようとするセンテンスデータベースに記憶されたプリセット語彙とがマッチングするかどうかに基づいて、前記音声データをモニタリングするように設定される第2モニタリングユニット、を含む請求項6に記載の装置。
  8. 警報信号を送信するように設定される警報モジュールを更に含む請求項6に記載の装置。
  9. 前記調整モジュールは、
    前記音声データの基本周波数パラメータを取得し、設定した標準の音声フォーマットに従って、時間領域同期アルゴリズムと基本周波数調整パラメータにより前記音声データの基本周波数パラメータを調整するように設定される第1調整ユニット、及び/又は、
    前記音声データの音声エネルギーを取得し、設定した標準の音声フォーマットに従って、エネルギー調整パラメータにより前記音声エネルギーを調整するように設定される第2調整ユニット、及び/又は、
    設定した標準の音声フォーマットに従って前記音声データのセンテンスのタイムスパンを延長するように設定される第3調整ユニット、を含む請求項6に記載の装置。
  10. 前記調整モジュールは、
    前記調整しようとするセンテンスデータベースにおいて前記プリセット語彙に対応する礼儀語彙が存在するかどうかを検索するように設定される検索ユニットと、
    前記検索ユニットの搜索結果が存在するの場合、前記礼儀語彙で前記プリセット語彙を引き替えるように設定される切替ユニットとを更に含む請求項7に記載の装置。
JP2015549951A 2012-12-27 2013-07-11 音声データの伝送方法及び装置 Active JP6113302B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210578430.2 2012-12-27
CN201210578430.2A CN103903627B (zh) 2012-12-27 2012-12-27 一种语音数据的传输方法及装置
PCT/CN2013/079201 WO2013182118A1 (zh) 2012-12-27 2013-07-11 一种语音数据的传输方法及装置

Publications (2)

Publication Number Publication Date
JP2016507772A true JP2016507772A (ja) 2016-03-10
JP6113302B2 JP6113302B2 (ja) 2017-04-12

Family

ID=49711406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015549951A Active JP6113302B2 (ja) 2012-12-27 2013-07-11 音声データの伝送方法及び装置

Country Status (5)

Country Link
US (1) US20160196836A1 (ja)
EP (1) EP2928164A4 (ja)
JP (1) JP6113302B2 (ja)
CN (1) CN103903627B (ja)
WO (1) WO2013182118A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018159788A (ja) * 2017-03-22 2018-10-11 カシオ計算機株式会社 情報処理装置、方法及びプログラム
JP2020126125A (ja) * 2019-02-04 2020-08-20 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104113634A (zh) * 2013-04-22 2014-10-22 三星电子(中国)研发中心 一种对语音进行处理的方法
CN104299622A (zh) * 2014-09-23 2015-01-21 深圳市金立通信设备有限公司 一种音频处理方法
CN104284018A (zh) * 2014-09-23 2015-01-14 深圳市金立通信设备有限公司 一种终端
CN105741854A (zh) * 2014-12-12 2016-07-06 中兴通讯股份有限公司 一种语音信号的处理方法及终端
CN104538043A (zh) * 2015-01-16 2015-04-22 北京邮电大学 一种通话中实时情感提示装置
WO2016133319A1 (en) * 2015-02-16 2016-08-25 Samsung Electronics Co., Ltd. Method and device for providing information
CN104616666B (zh) * 2015-03-03 2018-05-25 广东小天才科技有限公司 一种基于语音分析改善对话沟通效果的方法及装置
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
CN105244026B (zh) * 2015-08-24 2019-09-20 北京意匠文枢科技有限公司 一种语音处理方法及装置
CN105261362B (zh) * 2015-09-07 2019-07-05 科大讯飞股份有限公司 一种通话语音监测方法及系统
CN106502938B (zh) * 2015-09-08 2020-03-10 北京百度网讯科技有限公司 用于实现图像和语音交互的方法和装置
CN106572067B (zh) * 2015-10-12 2020-05-12 阿里巴巴集团控股有限公司 语音流传送的方法及系统
CN105448300A (zh) * 2015-11-12 2016-03-30 小米科技有限责任公司 用于通话的方法及装置
CN105681546A (zh) * 2015-12-30 2016-06-15 宇龙计算机通信科技(深圳)有限公司 一种语音处理的方法、装置以及终端
US10157626B2 (en) * 2016-01-20 2018-12-18 Harman International Industries, Incorporated Voice affect modification
CN105611026B (zh) * 2016-01-22 2019-07-09 胡月鹏 一种调节通话音量的方法、装置及电子设备
JP6755304B2 (ja) * 2016-04-26 2020-09-16 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
US10734103B2 (en) * 2016-08-29 2020-08-04 Panasonic Intellectual Property Management Co., Ltd. Stress management system and stress management method
WO2018050212A1 (en) * 2016-09-13 2018-03-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Telecommunication terminal with voice conversion
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
CN106992005A (zh) * 2017-03-16 2017-07-28 维沃移动通信有限公司 一种语音输入方法及移动终端
EP3392884A1 (en) * 2017-04-21 2018-10-24 audEERING GmbH A method for automatic affective state inference and an automated affective state inference system
US10659404B2 (en) * 2017-08-21 2020-05-19 Panasonic Intellectual Property Management Co., Ltd. Information processing method, information processing device, and recording medium storing information processing program
CN107886963B (zh) * 2017-11-03 2019-10-11 珠海格力电器股份有限公司 一种语音处理的方法、装置及电子设备
CN108494952B (zh) * 2018-03-05 2021-07-09 Oppo广东移动通信有限公司 语音通话处理方法及相关设备
CN108630224B (zh) * 2018-03-22 2020-06-09 云知声智能科技股份有限公司 控制语速的方法及装置
CN112334981A (zh) 2018-05-31 2021-02-05 舒尔获得控股公司 用于自动混合的智能语音启动的系统及方法
EP3804356A1 (en) 2018-06-01 2021-04-14 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
CN109005272B (zh) * 2018-07-24 2021-01-29 Oppo(重庆)智能科技有限公司 语音拾取方法及相关产品
US10896689B2 (en) * 2018-07-27 2021-01-19 International Business Machines Corporation Voice tonal control system to change perceived cognitive state
CN109274819A (zh) * 2018-09-13 2019-01-25 广东小天才科技有限公司 通话时用户情绪调整方法、装置、移动终端及存储介质
CN112889296A (zh) 2018-09-20 2021-06-01 舒尔获得控股公司 用于阵列麦克风的可调整的波瓣形状
CN109545200A (zh) * 2018-10-31 2019-03-29 深圳大普微电子科技有限公司 编辑语音内容的方法及存储装置
JP2022526761A (ja) 2019-03-21 2022-05-26 シュアー アクイジッション ホールディングス インコーポレイテッド 阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置
EP3942842A1 (en) 2019-03-21 2022-01-26 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
CN109977411B (zh) * 2019-03-28 2022-03-25 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN109951607B (zh) * 2019-03-29 2021-01-26 努比亚技术有限公司 一种内容处理方法、终端及计算机可读存储介质
EP3942552A1 (en) * 2019-04-05 2022-01-26 Huawei Technologies Co., Ltd. Methods and systems that provide emotion modifications during video chats
US11445294B2 (en) 2019-05-23 2022-09-13 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
EP3977449A1 (en) 2019-05-31 2022-04-06 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
CN110138654B (zh) * 2019-06-06 2022-02-11 北京百度网讯科技有限公司 用于处理语音的方法和装置
WO2021041275A1 (en) 2019-08-23 2021-03-04 Shore Acquisition Holdings, Inc. Two-dimensional microphone array with improved directivity
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
JP7248615B2 (ja) * 2020-03-19 2023-03-29 ヤフー株式会社 出力装置、出力方法及び出力プログラム
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
JP2024505068A (ja) 2021-01-28 2024-02-02 シュアー アクイジッション ホールディングス インコーポレイテッド ハイブリッドオーディオビーム形成システム
CN112860213B (zh) * 2021-03-09 2023-08-25 腾讯科技(深圳)有限公司 音频的处理方法和装置、存储介质及电子设备
CN113113047A (zh) * 2021-03-17 2021-07-13 北京大米科技有限公司 一种音频处理的方法、装置、可读存储介质和电子设备
CN113254250B (zh) * 2021-06-16 2022-01-04 阿里云计算有限公司 数据库服务器异常成因检测方法、装置、设备和存储介质
CN117316191A (zh) * 2023-11-30 2023-12-29 天津科立尔科技有限公司 一种情绪监测分析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000503511A (ja) * 1996-11-14 2000-03-21 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ テレビジョン番組表示の内容による禁止
JP2007003700A (ja) * 2005-06-22 2007-01-11 Oki Electric Ind Co Ltd 商品販売支援装置
WO2009011021A1 (ja) * 2007-07-13 2009-01-22 Panasonic Corporation 話速変換装置及び話速変換方法
JP2010103751A (ja) * 2008-10-23 2010-05-06 Yahoo Japan Corp 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ
JP2012181469A (ja) * 2011-03-03 2012-09-20 Sony Corp 送信装置、受信装置、送信方法、受信方法、通信システム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463415B2 (en) * 1999-08-31 2002-10-08 Accenture Llp 69voice authentication system and method for regulating border crossing
US7085719B1 (en) * 2000-07-13 2006-08-01 Rockwell Electronics Commerce Technologies Llc Voice filter for normalizing an agents response by altering emotional and word content
TWI221574B (en) * 2000-09-13 2004-10-01 Agi Inc Sentiment sensing method, perception generation method and device thereof and software
EP1282113B1 (en) * 2001-08-02 2005-01-12 Sony International (Europe) GmbH Method for detecting emotions from speech using speaker identification
US6996526B2 (en) * 2002-01-02 2006-02-07 International Business Machines Corporation Method and apparatus for transcribing speech when a plurality of speakers are participating
FR2839836B1 (fr) * 2002-05-16 2004-09-10 Cit Alcatel Terminal de telecommunication permettant de modifier la voix transmise lors d'une communication telephonique
CN1645363A (zh) * 2005-01-04 2005-07-27 华南理工大学 便携式即时方言互译装置及其方法
US7706510B2 (en) * 2005-03-16 2010-04-27 Research In Motion System and method for personalized text-to-voice synthesis
US20070286386A1 (en) * 2005-11-28 2007-12-13 Jeffrey Denenberg Courteous phone usage system
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
WO2007120734A2 (en) * 2006-04-11 2007-10-25 Noise Free Wireless, Inc. Environmental noise reduction and cancellation for cellular telephone and voice over internet packets (voip) communication devices
WO2010041507A1 (ja) * 2008-10-10 2010-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 会話における特定状況を抽出するシステムおよび方法
CN101420665A (zh) * 2008-12-11 2009-04-29 北京邮电大学 基于情绪检测技术实现情绪检测与指导业务的系统和方法
CN101662546A (zh) * 2009-09-16 2010-03-03 中兴通讯股份有限公司 情绪监控的方法及装置
CN101789990A (zh) * 2009-12-23 2010-07-28 宇龙计算机通信科技(深圳)有限公司 一种在通话过程中判断对方情绪的方法及移动终端
US20120189129A1 (en) * 2011-01-26 2012-07-26 TrackThings LLC Apparatus for Aiding and Informing a User
JP5602653B2 (ja) * 2011-01-31 2014-10-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、情報処理方法、情報処理システム、およびプログラム
CN102184731A (zh) * 2011-05-12 2011-09-14 北京航空航天大学 一种韵律类和音质类参数相结合的情感语音转换方法
US20170006161A9 (en) * 2013-03-15 2017-01-05 Genesys Telecommunications Laboratories, Inc. Intelligent automated agent for a contact center
US10405786B2 (en) * 2013-10-09 2019-09-10 Nedim T. SAHIN Systems, environment and methods for evaluation and management of autism spectrum disorder using a wearable data collection device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000503511A (ja) * 1996-11-14 2000-03-21 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ テレビジョン番組表示の内容による禁止
JP2007003700A (ja) * 2005-06-22 2007-01-11 Oki Electric Ind Co Ltd 商品販売支援装置
WO2009011021A1 (ja) * 2007-07-13 2009-01-22 Panasonic Corporation 話速変換装置及び話速変換方法
JP2010103751A (ja) * 2008-10-23 2010-05-06 Yahoo Japan Corp 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ
JP2012181469A (ja) * 2011-03-03 2012-09-20 Sony Corp 送信装置、受信装置、送信方法、受信方法、通信システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018159788A (ja) * 2017-03-22 2018-10-11 カシオ計算機株式会社 情報処理装置、方法及びプログラム
JP2020126125A (ja) * 2019-02-04 2020-08-20 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
JP7230545B2 (ja) 2019-02-04 2023-03-01 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置

Also Published As

Publication number Publication date
CN103903627A (zh) 2014-07-02
WO2013182118A1 (zh) 2013-12-12
EP2928164A1 (en) 2015-10-07
CN103903627B (zh) 2018-06-19
US20160196836A1 (en) 2016-07-07
EP2928164A4 (en) 2015-12-30
JP6113302B2 (ja) 2017-04-12

Similar Documents

Publication Publication Date Title
JP6113302B2 (ja) 音声データの伝送方法及び装置
JP6945695B2 (ja) 発話分類器
JP6374028B2 (ja) 音声プロファイルの管理および発話信号の生成
WO2017206256A1 (zh) 一种语速自动调节的方法及终端
US9711135B2 (en) Electronic devices and methods for compensating for environmental noise in text-to-speech applications
WO2021051506A1 (zh) 语音交互方法、装置、计算机设备及存储介质
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
US20220122579A1 (en) End-to-end speech conversion
JP2023022150A (ja) 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
CN102903361A (zh) 一种通话即时翻译系统和方法
US11587547B2 (en) Electronic apparatus and method for controlling thereof
KR102056330B1 (ko) 통역장치 및 그 방법
US9208798B2 (en) Dynamic control of voice codec data rate
JP2020071675A (ja) 対話要約生成装置、対話要約生成方法およびプログラム
JP2020071676A (ja) 対話要約生成装置、対話要約生成方法およびプログラム
JP6599828B2 (ja) 音処理方法、音処理装置、及びプログラム
CN110767233A (zh) 一种语音转换系统及方法
WO2014077182A1 (ja) 携帯情報端末、シャドー音声管理方法及びコンピュータプログラム
KR101959439B1 (ko) 통역방법
KR102056329B1 (ko) 통역방법
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2003233389A (ja) アニメーション画像生成装置、及び同装置を内蔵した携帯電話、並びにアニメーション画像生成方法
JP6918471B2 (ja) 対話補助システムの制御方法、対話補助システム、及び、プログラム
KR20230153854A (ko) 사용자 단말, 사용자 단말의 제어 방법 및 대화 관리 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170314

R150 Certificate of patent or registration of utility model

Ref document number: 6113302

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250