JP6200369B2 - 未知の話し手を識別するシステム - Google Patents

未知の話し手を識別するシステム Download PDF

Info

Publication number
JP6200369B2
JP6200369B2 JP2014082405A JP2014082405A JP6200369B2 JP 6200369 B2 JP6200369 B2 JP 6200369B2 JP 2014082405 A JP2014082405 A JP 2014082405A JP 2014082405 A JP2014082405 A JP 2014082405A JP 6200369 B2 JP6200369 B2 JP 6200369B2
Authority
JP
Japan
Prior art keywords
identification
speaker
signal
operable
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014082405A
Other languages
English (en)
Other versions
JP2014217055A (ja
Inventor
ルーカス・ウィリアム・パートリッジ
ジョナサン・デイビッド・ペンバージー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GE Aviation Systems Ltd
Original Assignee
GE Aviation Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GE Aviation Systems Ltd filed Critical GE Aviation Systems Ltd
Publication of JP2014217055A publication Critical patent/JP2014217055A/ja
Application granted granted Critical
Publication of JP6200369B2 publication Critical patent/JP6200369B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42025Calling or Called party identification service
    • H04M3/42034Calling party identification service
    • H04M3/42042Notifying the called party of information on the calling party
    • H04M3/42051Notifying the called party of information on the calling party where the notification is included in the ringing tone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1822Conducting the conference, e.g. admission, detection, selection or grouping of participants, correlating users to one or more conference sessions, prioritising transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/41Electronic components, circuits, software, systems or apparatus used in telephone systems using speaker recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Description

本発明は、誰が話しているかを聞き手が容易には理解できない場合における、複数の参加者の話し手と聞き手との間での言葉によるコミュニケーションにおいて用いられ、話し手の識別情報を示す感覚出力を聞き手に提供するよう動作可能である装置、部品キット、及びその関連する方法に関する。
複数の参加者の話し手と聞き手との間で言葉によるコミュニケーションを必要とする多くの状況があるが、この場合、話し手と聞き手が離れていることで、誰が話しているかを1又は複数の聞き手が判断することが難しくなる。
この問題は、話し手と1又は複数の聞き手が直接見通し線から外れた位置にある場合に発生する可能性がある。このような1つの実施例は、異なる地理上の位置にいる複数の参加者間で電気通信ネットワークを介して取り次がれる音声会議通話を使用する例である。これは、商用通信を行う手段として周知である。しかしながら、通話中の参加者の人数が二人よりも多い場合には、ある所与の時間において参加者の誰が話しているのかを判別することが難しい場合がある。この問題は、参加者が直接見通し線に存在せず、従って、電話の向こう側で誰が話しているのかを識別するのに音声信号にのみ依存しなければならないことによって生じた結果である。この問題は、従来のアナログ音声電話サービス(POTS)ネットワークを介して会議通話を行う場合に更に悪化し、これは、POTSネットワーク上で使用可能な音声周波数帯域が約300Hz〜3,400Hzに制限され、すなわち、人間の聴覚範囲を表す周波数帯域(およそ20Hz〜20,000Hz)の僅かな一部に制限される。従って、聴取している参加者は、誰が話しているのかを識別するのに聴覚信号にのみ依存しなければならないことに加えて、圧縮された音声信号に対する識別に基づかなければならない。話し手の識別は、POSTネットワークを介した伝送によって導入される可能性がある、話している参加者の発話における何らかの歪みによって更に妨げられる恐れがある。
誰が話しているかを識別する1又は複数の聞き手の問題はまた、単一の部屋(混雑した講演場など)に複数の参加者がいる会議又は講演において生じる可能性がある。単一の部屋に大勢の参加者がいる場合には、例え話し手が聴いている人と直接見通し線にいたとしても、参加者の中から誰が話しているかを聴いている人が判断することは困難である。
所与の人の声を声紋から認識することに基づいて、誰が話しているかを識別できる音声認識システムを用いることは公知である。しかしながら、このようなシステムは、所与の人を識別するために十分な程の音声プロファイルを確立するためのトレーニングと、所与の電話中の全ての人の音声プロファイルが含まれたデータベースとが必要となる。従って、このようなシステムは、時間とインフラの両方の観点で高価なものとなる。
その結果、誰が話しているかを聞き手が容易には理解できない場合において、話し手と聞き手との間での言葉によるコミュニケーションの状況で誰が話しているかを識別する改善された手段に対する必要性がある。
従って、本発明の第1の態様は、話し手と少なくとも1人の聞き手との間の言葉によるコミュニケーションで使用する装置を提供し、話し手と少なくとも1人の聞き手とが複数の参加者の全て又は一部を形成し、話し手と少なくとも1人の聞き手とが互いに空間的に離れており、装置が、話し手の識別情報と関連付けられる感覚出力を聞き手に提供するよう動作可能であり、本装置が、話し手が装着可能又は携帯可能であり且つ話し手の発話と関連付けられる振動を検出するための振動センサを含む識別装置を備え、識別装置が、話し手及び識別装置の一方又は両方の識別情報を表す識別データを格納するよう構成され、これにより識別装置が話し手の識別情報と関連付けられ、識別装置が、振動センサによる話し手の発話と関連付けられる振動の検出に応答して格納された識別データを含む又は該識別データから生成される識別信号を送信機が送信するように動作可能であり、本装置が更に、聞き手が使用するための表示装置を備え、表示装置が、識別信号を受け取って、話し手及び識別装置の一方又は両方の識別情報を示す感覚出力を受け取った識別信号から生成するように動作可能である。
本発明において「複数の」参加者とは、2又はそれ以上の参加者を意味する。更に「話し手」及び「聞き手」はまた、本明細書内ではそれぞれ、話している参加者と聴いている参加者を指し、これらの用語は同義的に使用される。
本発明は、誰が話しているかを聞き手が容易には理解できず、このため話し手の識別情報を確立する聞き手の能力が妨げられる場合における、話し手と聞き手の間との間での何らかの言葉によるコミュニケーションの用途に適用される。この用途には、限定ではないが、所与の時間において誰が話しているかに関する識別情報を確立するのを助けるために複数の参加者がいる会議又は講演における使用が挙げられる。単一の部屋(混雑した講演場など)に大勢の参加者がいる場合には、例え話し手が聴いている人と直接見通し線にいたとしても、参加者の中から誰が話しているかを聴いている人(すなわち、聞き手)が判断することは困難である。本発明の装置は、混雑したスペースにおいて誰が話しているかに関する識別情報を聞き手が判断することを容易に可能にする手段を提供する。電気通信又は無線アプリケーションでの使用は、話し手と聞き手は互いに直接見通し線にはいない。本発明の装置は、異なるネットワークノードに対応する異なる地理上の位置にいる複数の参加者間で電気通信又は無線ネットワークを介して行われる音声通信会議において特に有用となる。本発明の装置を用いることができる電気通信ネットワークの非限定的な実施例には、アナログ音声電話サービス(POTS)、セルラー電話ネットワーク、及び/又はボイス・オーバー・インターネット・プロトコル(VOIP)が挙げられる。本発明はまた、航空機のパイロットと航空管制官及び/又は他の航空機との間での無線通信での使用にも有利となる。或いは、本発明は、タクシー会社又は貨物運送会社による使用など、陸上輸送における無線通信の一部として使用される場合に有利となる。
複数の参加者を有するこのような何らかの「言葉によるコミュニケーション」の状況において本発明を用いることを考慮する場合には、各参加者は、異なる時間には話しており、又は聞いていることに特に留意されたい。従って、「話し手」と「聞き手」の役割は必ずしも固定されていない。このことは、複数の異なる参加者の間で電気通信又は無線ネットワークを介した音声通信会議中に本発明を使用することを考慮する場合により明確に理解することができ、すなわち、所与の参加者は、会議においてある場合は「話し手」となり、別の場合には「聞き手」となることがある。従って、本発明の識別装置及び表示装置の使用を説明する場合、本明細書で使用される用語「話し手」及び「聞き手」は、(言葉によるコミュニケーションの間に所与の時点でその人が話しているか又は聞いているかに応じて)同一の人に適用することができる。
話し手及び識別装置の一方又は両方の識別情報を表す識別データを格納するように識別装置を構成させることは、様々な異なる方法で可能にすることができる。非限定的な実施例は、社員IDタグの形態で提供され、タグには所与の社員の識別情報を表す識別データがエンコードされたチップが含まれる識別装置を含むことができる。識別データは、社員の名前及び社員番号の形態をとることができる。或いは、識別データは、所与の識別装置に関連する色及び形状の一方又は両方を含むことができる。異なるネットワークノードに位置する複数の参加者間で電気通信又は無線ネットワークを介して行う非限定的な実施例によれば、会議への参加者の各々には、当該識別装置に一意的にリンク付けされた可視マーキングを表す識別データで構成された固有の識別装置を提供することができる。この一意のリンク付けは、各識別装置が色、形状、又はこれらの組み合わせの形態の一意の可視マーキングを有する形をとることができ、各識別装置には異なる色及び/又は形状が提供され、識別装置は、色及び/又は形状を表す識別データでエンコードされたチップ又は他の記憶手段を含む。このような色及び/又は形状の使用は、格納された識別データが、識別装置自体の識別情報を表すことになり、従って、参加者の何れかの個人情報(例えば、名前、生年月日、及び/又は住所)を含めた識別データを識別装置上に格納する必要性が排除される利点をもたらすことになる一例を提供する。
感覚出力は、好ましくは、視覚出力、触覚出力、及び可聴出力の1つ又はそれ以上を含む。可聴出力は、話し手の名前を提供する聴覚によるボイスオーバの形態をとることができるが、これは、話し手が何を言っているかを聞き取る1又は複数の聞き手の能力を潜在的に妨げる可能性がある。このため、視覚出力が好ましい。視覚出力は、(識別信号に含まれる情報に基づいて)聞き手に対して話し手及び話し手の識別装置の一方又は両方の識別情報を確立するのに十分な何らかの視覚的表現の形態をとる。例えば、視覚出力は、単に、話し手の名前のテキスト表現、又は話し手及び話し手の識別装置の一方又は両方を表す何らかの英数字識別子とすることができる。或いは、視覚出力は、色及び/又は形状の形態をとることができる。例えば、各識別装置は、色、形状、又はこれらの組み合わせの形態の固有の一意の可視マーキングを備え、識別データは色及び/又は形状(前段で概略的に説明したような)を表し、表示装置上に提供される感覚出力は、色及び/又は形状の視覚的表現とすることができる。或いは、触覚出力は、Braille(点字;視覚障害の参加者に好適)又は振動(異なる識別装置から送信される異なる識別信号に対応する異なる振動信号の出力など)の形態をとることができる。
識別装置は、話し手が識別データで識別装置を事前構成するよう動作可能な入力手段を含むことが好ましい。識別装置を事前構成するためのこのような入力手段の提供により、話し手が、固有の識別情報を表す識別データで識別装置を事前構成できるようになる。使用時には、このような事前構成は、「言葉によるコミュニケーション」を開始する前に行うことが望ましい。更に説明すると、航空機のパイロットと航空管制官との間の空中〜地上通信での使用を考慮した場合、パイロットは、離陸前に識別装置を事前構成するのが好ましく、複数の参加者間で電気通信又は無線ネットワークを介した音声通信会議の実施例を考慮した場合、各参加者は、会議の開始前に識別装置を事前構成するのが好ましいことになる。好都合には、入力手段は、キーパッド及び録音装置の一方又は両方を含む。従って、話し手は、キーパッド入力及び/又は音声入力を用いて名前(又は他の何れかの個人識別子)などの識別データで識別装置を事前構成することができる。
識別装置は、別の人の識別情報で再関連付け可能であるよう構成されることが特に好ましい。本発明のこの特徴は、識別装置が所与の人と恒久的に関連付けられることに制限されないようにし、これにより後で識別装置を別の人が確実に使用できるようにする。多数の社員を有する組織内で本発明の装置を用いることを考慮した場合、「再関連付け」の特徴は、固有の識別装置をそれぞれの社員に提供する必要性を排除し、全社員が同じ「言葉によるコミュニケーション」において同時に参加することは不可能になる。更に、再関連付けの特徴はまた、ある期間にわたり多くの人に所与の識別装置を再使用する能力を提供する。
「言葉によるコミュニケーション」の状況での使用時に、参加者の全てに固有の装着可能又は携帯可能な識別装置を提供することが想定される。これにより、各参加者が、話す際に参加者に一意的に関連付けられた識別信号を生成するのに好適な手段を確実に所有することになる。必要な表示装置の数は、特定の言葉によるコミュニケーション状況によって決まることになる。単一の部屋において多くの参加者がいる会議又は講演中に本発明を使用することを考慮すると、参加者全員が見える単一の共通の表示装置のみそこに存在するので十分とすることができる。しかしながら、異なるネットワークノードに対応する異なる地理上の位置にいる複数の参加者間で電気通信(又は無線)ネットワークを介して行われる音声通信会議中に本発明を使用することを考慮すると、各ネットワークノードにおいて少なくとも1つの表示装置を設けることが想定される。これにより、話している参加者の識別装置からネットワークを介して受け取られる識別情報に基づいて、ネットワークの各ノードにて出席し聞いている参加者が異なるノードにおいて誰が話しているかに関するリアルタイムの感覚表示を得る能力を提供することになる。
好ましくは、識別装置は、話し手からの連続発話の最小持続時間の後にだけ送信機が識別信号を送信するように構成される。本発明のこの特徴は、話し手の咳又はくしゃみに基づいて表示装置が起動するのが回避され、これにより装置の使用中に参加者の話していることの誤った表示を回避できる有益な効果がある。好都合には、最小持続時間は、0.5〜2秒である。最小持続時間が長すぎると、a)話し手の発話が1又は複数の聞き手によって最初に聞かれてから、b)表示装置(1又は複数の聞き手に対する)が、識別信号を受け取って誰が話しているかに関する識別情報の感覚出力を生成するまでの間の許容できないタイムラグが生じる恐れがある。
好ましくは、識別装置は、話し手の首又は胸の近くに位置決めされる。本発明のこの特徴は、話し手の声帯の使用による振動を振動センサがより確実に検出できるようにするのを助ける。識別装置は、話し手の首の周りに装着するためにネックレスに好都合に取り付けることができる。好都合には、識別装置は、可搬性があり、話し手が身に着けた衣類品に取付可能であり、又は、話し手の体に(例えば、ストラップ又は接着テープを用いて)直接取り付け可能とすることができ、これら全ては「装着可能」又は「携帯可能」な識別装置の範囲内にある。
識別装置を参加者によって使用時に装着又は携帯されるようにすることにより、当該参加者に識別センサが近接していることが可能となる。これにより、識別装置を装着又は携帯している参加者からの発話だけを検出するように振動センサをより容易に較正することができる利点を提供する。この利点は、特定の識別装置を装着又は携帯している参加者以外の人達からの発話によって識別装置が起動するのが回避されるので、他の人達が特定の参加者と同じ部屋に存在する場合に特に適切である。
識別装置の送信機は、20Hz〜20,000Hzの間の周波数を有する音声信号として識別信号を送信するよう構成することができる。このような周波数範囲は、人間の聴覚に聞こえる一般に認められる周波数範囲に相当する。好都合には、送信機は、300Hz〜3,400Hzの狭い周波数帯域内にある周波数を有する音声信号として識別信号を送信するよう構成される。この狭い周波数帯域は、送信可能な可聴周波数範囲が人間の聴覚の範囲(20Hz〜20,000Hz)と一般に関連付けられる周波数の一部に相当する従来のアナログ音声電話サービス(POTS)の形態で電気通信ネットワークを介した識別信号の直接送信に特に好適である。
或いは、送信機は、20,000Hzを上回る周波数で識別信号を無線送信するよう構成することができ、本装置は更に、識別装置と電気通信又は無線ネットワークとの間を通信可能に結合できる第1のエンコーダを備え、該第1のエンコーダは、送信された識別信号を受け取り、a)20Hz〜20,000Hzの範囲(或いは代替として300Hz〜3,400Hzの範囲)の周波数を有する音声信号、又はb)暗号化されたデジタル信号のうちの一方に変換するよう動作可能であり、b)の場合、表示装置は、暗号化されたデジタル信号を復号するデコーダを備え、又はデコーダと通信可能に結合できる。
20,000Hzを上回る周波数での識別装置からの識別信号の送信は、話し手に聞こえず、従って、集信を妨げず、発話に影響を及ぼさないことを確実にする有利な効果がある。第1のエンコーダによる20Hz〜20,000Hzの範囲での可聴周波数への後続の変換は、本装置の識別装置が、人間の聴覚の全範囲に対応する音声信号を送信できる電気通信又は無線ネットワークと共に使用される場合に有利であり、一方、300Hz〜3,400Hzの範囲の周波数を有する音声信号への変換は、本装置がPOTSの形態の電気通信ネットワークと共に使用される場合に特に有利である。
上記で概説された第1のエンコーダの使用に加えて、識別装置はまた、送信機により無線Bluetooth信号として送信するために識別信号をエンコードするよう動作可能とすることができ、ここで識別装置及び第1のエンコーダは互いにBluetoothペアリングが可能である。Bluetoothプロトコルの使用は、識別装置と第1のエンコーダとの間での無線接続及び情報交換を行うための安全な方法を提供する。
好都合には、第1のエンコーダは、電気通信又は無線ネットワークのノードに接続可能な端末内に一体化され、該端末はネットワークとの間で音声通信をするよう動作可能である。1つの実施例において、端末は、POTSを介して接続可能な電話とすることができ、電話は、近接して位置する1人又はそれ以上の参加者の発話を検出するマイクロフォンと、POTSを介して受け取られる音声信号を聞いている誰かに伝達するためのスピーカーとを有する。
好ましくは、本装置は更に、表示装置内に一体化された、又は表示装置に通信可能に接続できるフィルタを備え、フィルタは、識別信号と話し手の発話の音声信号の両方を含む結合信号を受け取るよう動作可能であり、更に、この結合信号をフィルタ処理し、フィルタ処理された信号を聞き手に音声出力する前に、結合信号から識別信号を抽出するよう動作可能である。このようなフィルタを使用することにより、1又は複数の聞き手が、識別信号からの干渉又は歪みなしでネットワークの別のノードにおいて話している参加者が話した言葉を聞き取ることを確実にすることができる。
好ましくは、表示装置は、電気通信又は無線ネットワークのノードに接続可能な端末内に一体化され、該端末は、ネットワークとの間で音声通信をするよう動作可能である。本発明のこの特徴は、電気通信又は無線ネットワークとの間で音声入力及び音声出力を提供するよう機能すると同時に、ネットワークの別のノードにて誰が話しているかに関する視覚的表示を提供する機能を果たすことができる単一の一体化された端末を提供する利点をもたらす。代替として、又はこれに加えて、識別装置は、電気通信又は無線ネットワークのノードに接続可能な端末内に一体化され、該端末は、ネットワークとの間で音声通信するよう動作可能であり、例えば、端末は、識別装置及び表示装置の両方として機能できるセルラー電話とすることができる。
本発明の別の態様において、電気通信又は無線ネットワークとの間で音声通信するよう動作可能な端末が提供され、該端末は、本発明の識別装置及び表示装置の一方又は両方を含む。本発明の一形態において、端末はセルラー電話とすることができる。
本発明の別の態様において、本発明の識別装置及び表示装置を含む部品キットが提供される。このようなキットは、識別情報に関連付けられる識別信号を生成するのに必要であり、すなわち、言葉によるコミュニケーション中に話し手であるときの当該人が使用するのに好適な手段(すなわち、「識別装置」)と、言葉によるコミュニケーション中に当該人が聞き手であるときに誰が話しているかに関する識別情報を示す視覚的出力を提供するのに必要な手段(すなわち、「表示装置」)との両方を人に提供することになるので、有用となる。
本発明の別の態様において、話し手と少なくとも1人の聞き手との間の言葉によるコミュニケーションにおいて誰が話しているかを識別する方法が提供され、話し手と少なくとも1人の聞き手とが複数の参加者の全て又は一部を形成し、話し手と少なくとも1人の聞き手とが互いに空間的に離れており、方法が、話し手の識別情報と関連付けられる感覚出力を少なくとも1人の聞き手に提供し、本方法が、話し手が装着可能又は携帯可能であり且つ話し手の発話と関連付けられる振動を検出するための振動センサを含む識別装置を提供するステップを含み、識別装置が、話し手及び識別装置の一方又は両方の識別情報を表す識別データを格納し、これにより識別装置が話し手の識別情報と関連付けられ、本方法が更に、話し手が識別装置を装着又は携帯しているときに、話し手の発話と関連付けられる振動を振動センサを用いて検出するステップと、振動の検出に応答して、格納された識別データを含む又は該識別データから生成される識別信号を識別装置から送信するステップと、少なくとも1人の聞き手が使用するための表示装置を提供するステップと、を含み、表示装置が、識別信号を受け取って、話し手及び識別装置の一方又は両方の識別情報を示す感覚出力を受け取った識別信号から生成する。
本発明の方法はまた、上記で概説された装置の種々の実施可能な特徴により提供される機能に相当するステップを組み込むことができる。
以下の図において本発明の実施形態が示されている。
複数の異なるノードを有する電気通信ネットワークの図。 図1に示す電気通信ネットワークと共に用いたときの本発明の第1の実施形態を示す図。 図1に示す電気通信ネットワークと共に用いたときの本発明の第2の実施形態を示す図。 図1に示す電気通信ネットワークと共に用いたときの本発明の第3の実施形態を示す図。 3つの異なる識別装置のハウジングが各々固有の可視マーキングを備える本発明の1つの実施形態を示す図。
各図は縮尺通りに描かれておらず、本発明の種々の実施可能な実施形態の非限定的な実施例を意図している点に留意されたい。
図1は、音声通信会議中に使用する電気通信ネットワーク10の簡略図を示しており、ネットワークは複数の異なるノード11を有する。ノード11の各々は、異なる地理上の位置に相当する。図1に示す実施形態において、端末20は、各それぞれのノード11にて電気通信ネットワーク10に接続され、端末は、電気通信ネットワーク10との間で音声通信を提供する。電気通信ネットワークが従来のアナログ音声電話サービス(POTS)である場合の本発明の実施例が、図2、3、及び4において説明されており、POTSシステムの使用は音声会議において依然として広範囲に及んでいる。しかしながら、本明細書の前部分により理解できるように、本発明は、電気通信ネットワークの他の形態(例えば、セルラー電話ネットワーク、及び/又はボイス・オーバー・インターネット・プロトコル(VOIP))と共に使用するのにも適用可能である。
図面において示していない代替の実施形態において、ネットワーク10は、無線通信ネットワークである。このような1つの無線通信ネットワーク10は、航空機と地上局との間の無線通信システムの一部を形成する無線ネットワークであり、航空機及び地上局はネットワークの異なるノード11に対応する。
複数の参加者30間の音声通信会議の間、参加者の1人又はそれ以上は、各ノード位置11(図1に示すような)に位置する。
図2、3、及び4は、音声通信会議中にある時点では話しており(すなわち、「話して」の役割)、また別の時点では聞いている(すなわち、「聞き手」の役割)参加者の観点からの本発明の例示的な図を示している。本装置は、識別装置40と表示装置70とを有する。
請求項において概説される本発明の範囲を限定する意図することなく、識別装置40及び表示装置70の形態及び機能について以下で概説する。
図2の実施形態は、ネックレス41上に設けられた識別装置40を示している。使用時には、ネックレス41は、参加者30の所与の一人の首の周りに身に着けられ、その結果、識別装置は、当該参加者の首及びこれにより声帯の近くに位置付けられるようになる。音声通信会議への各参加者30は、装着又は携帯されることになる固有の識別装置40を備えている。識別装置40は、振動センサ42、入力手段43、メモリ44、プロセッサ45、及び送信機46を組み込んだハウジングを含む。
図2はまた、電気通信ネットワーク10に接続された会議対応型電話の形態の端末20を示しており、ネットワークは、アナログ音声電話サービス(POTS)の形態を有する。端末20は、ネットワーク10との間で音声通信を可能にするマイクロフォン21及びスピーカー22を有する。
音声通信会議を開始する前に、各参加者30は、入力手段43を用いて、それぞれの固有の識別装置40のメモリ44に識別データを入力することになる。識別データは、当該参加者の識別情報を表している。入力手段43の形態は図示していないが、本明細書の前部分で概説されたように、キーパッド及び/又は録音装置を含むことができる。識別データは、参加者の名前、又は参加者の識別情報に一意的に関連付けられる別の識別子(例えば、社員スタッフ番号)の形態をとることができる。事前構成の動作により、識別装置40は、別の人の識別データと事前構成されるまでは所与の参加者30の識別情報と確実に結び付けられる(すなわち、関連付けられる)ようになる。
参加者30が話し始める(この時点で本発明における「話し手」になる)と、振動センサ42が、話し手30の発話Sと関連付けられる振動「V」(図2を参照)を検出する。話し手30の声帯への識別装置40の近接は、振動センサ42が話し手からの発話Sの開始を検出するのに役立つ。しかしながら、図示していない代替の実施形態では、識別装置40は、参加者30が手に持っているか、又は参加者が身に着けている衣類品に取り付けられる。
振動センサ42が話し手30の発話Sを検出したのに応答して、プロセッサ45及びメモリ44は、送信機46と協働して、送信機が識別信号50を無線送信するようにする。識別信号50は、上記で概説した事前構成ステップ中に入力された識別データから生成され、該識別データを含む。図2に示す実施形態において、プロセッサ45は、メモリ44内に格納されたコンピュータコードを実行し、該コンピュータコードは、識別データが識別信号50を生成することに基づいて作動する。コンピュータコードは、振動センサ42が話し手からの連続した発話Sの最小持続時間を検出した後にだけ、送信機46が識別信号50を送信するのを確実にするようなものである。図2の実施形態において、識別信号50は、300Hz〜3,400Hzの範囲の周波数を有する「チャープ」の形態の音声信号であり、チャープは、識別データの圧縮形態を表している。
「チャープ」50(すなわち、「識別信号」)は、端末20のマイクロフォン21により検出され、該マイクロフォン21はまた、話し手30の発話Sを検出する。次いで、端末20は、i)チャープ50及びii)話し手30の発話Sを表す音声信号500の両方を含む結合信号550を、ネットワーク10を介して該ネットワークの他のノード11に位置する他の参加者30の対応する端末20に送信する。結合信号550を受け取る他の参加者30の各々は、本発明における「聞き手」となる。
便宜上、図2を再度用いて、このような「聞き手」の観点から本発明を説明する。
図2は、端末20に一体化された表示装置70を示し、該表示装置は、ディスプレイ画面71を含む。フィルタ80もまた、端末20に一体化される。端末が結合信号550を受け取ると、信号は、最初にフィルタ80を通過し、結合信号550を濾波して結合信号550から識別信号50を抽出する。濾波後、抽出された識別信号50は、表示装置70に送られる。図2に示すように、表示装置70は、メモリ72及びプロセッサ73を含み、該プロセッサ73がメモリ72内に格納されたコンピュータコードを実行する。コンピュータコードは、抽出された識別信号50が、話し手の識別情報の視覚的表現の形態で間隔出力を生成することに基づいて作動し、該視覚的表現はディスプレイ画面71に出力される。図2に示す実施形態において、視覚的表現は、話し手の名前である。次いで、発話信号500は、端末20のスピーカー22に送られ、話し手が何を話しているのかを聞き手が聞き取ることを可能にすることができる。
本発明の代替の形態が図3に示され、図2の実施形態と共通の特徴要素は同じ参照符号を有する。図3の実施形態において、表示装置700は、端末20とは構造的に別個で且つネットワーク10と端末20間にインライン接続されるスタンダローン・モジュールとして提供される。フィルタ800は、表示装置700と一体化されて図示されている。フィルタ800は、図2の実施形態におけるフィルタ80と同様に機能し、これにより話し手の発話のみを含むクリーンな信号を端末20に送り、スピーカー22を介して聞き手に出力することが可能となる。更に、結合信号550から抽出された識別信号50は、表示装置70内で処理されて、話し手の識別情報に関するディスプレイ画面710上に視覚的表現を生成するようになる。表示装置700のこの代替の形態は、端末20の修正を必要とせず、これにより従来の会議対応電話を端末として使用できるようにする、図2の実施形態に優る利点を有することになる。
図3の実施形態において、各参加者は、部品キットを備え、該キットは、識別装置40及び表示装置700の両方を含み、ここで識別装置及び表示装置は端末20とは構造的に別個の状態で使用可能である。
本発明の更に別の代替形態が図4に示される。この実施形態は、図3の実施形態の変形形態である。図2及び3の実施形態とは対照的に、図4の実施形態は、エンコーダ60を含み、該エンコーダ60は、識別装置60及び端末20とは空間的に別個で分離されており、有線接続で端末20に接続される。図示していない代替の実施形態において、エンコーダ60は、端末20自体内に一体化される。図4の実施形態はまた、送信機46により無線送信される識別信号50が20,000Hzを上回る非可聴信号である点で、図2及び3の実施形態とは異なっている。非可聴識別信号50は、エンコーダ60によって受け取られ、エンコーダ60は、識別信号50を300Hz〜3,400Hzの範囲の周波数を有する音声信号に変換するよう機能し、次いで、変換された識別信号50は、有線接続を介して端末20に送られる。次に、端末20は、ネットワーク10を介して話し手30の発話500の音声信号と共に変換された識別信号50を送信する。図2及び3の実施形態に優る図4の実施形態の利点は、識別信号50を識別装置40からエンコーダ60に非可聴信号(すなわち、20,000Hzを上回る周波数を有する)として無線送信することにより、識別信号が集信及び話し手30の発話と干渉するのが回避される。図示していない実施形態において、識別信号50は、Bluetooth信号として無線送信することができ、識別装置40及びエンコーダ60はBluetoothペアリングが可能である。
図5は、3つの異なる識別装置40a、40b、40cのハウジングの外観図を示す。識別装置40a、40b、40cの各々は、ハウジングの外面上に可視マーキング90a、90b、90cを備える。図5に示す実施形態は、特定の模様又は色を有する形状の形態のこれらの可視マーキング90a、90b、90cを示している。識別装置40a、40b、40cの各々は、それぞれの可視マーキング90a、90b、90cを示す識別データがエンコードされたメモリ44を有する。使用時には、各識別装置40a、40b、40cから送信される識別信号50は、各装置のマーキング90a、90b、90cに対応する。各図の何れかには明示的に示してはいないが、表示装置70、700は、どの参加者30が話したかに属する識別装置の可視マーキングに対応する視覚的表現を表示することになる。
本明細書は、実施例を用いて本発明を開示し、また、当業者が本発明を実施及び利用できるようにしている。誤解を避けるために、請求項において定義される本発明は、その範囲内で当業者に想起され、本明細書の図面において示される実施例とは異なる他の実施例を含むことができる。
10 電気通信ネットワーク
11 ノード
20 端末
21 マイクロフォン
22 スピーカー
30 参加者
40 識別装置
42 振動センサ
43 入力手段
44 メモリ
45 プロセッサ
46 送信機
50 識別信号
60 エンコーダ
70 表示装置
72 メモリ
73 プロセッサ
80 フィルタ

Claims (13)

  1. 話し手と少なくとも1人の聞き手との間の言葉によるコミュニケーションで使用する装置であって、前記話し手と前記少なくとも1人の聞き手とが複数の参加者の全て又は一部を形成し、前記話し手と前記少なくとも1人の聞き手とが互いに空間的に離れており、前記装置が、前記話し手の識別情報と関連付けられる感覚出力を前記聞き手に提供するよう動作可能であり、
    前記装置が、前記話し手が装着可能又は携帯可能な識別装置を備え、
    前記識別装置が、
    前記話し手の発話と関連付けられる振動を検出するための振動センサと、
    送信機と、
    前記話し手の識別データを入力するためのキーパッド及び録音装置の一方又は両方を含む入力装置
    を備え、
    前記識別データは、前記話し手及び前記識別装置の一方又は両方の識別情報を表す識別データであり、前記識別装置が、該識別データを格納するよう構成され、
    前記送信機は、前記振動センサによる前記話し手の発話と関連付けられる振動の検出に応答して前記格納された識別データを含む又は該格納された識別データから生成される識別信号を送信するよう構成され、
    前記装置が更に、
    電気通信又は無線ネットワークのノードに接続可能な端末と、
    聞き手が使用するための表示装置
    を備え、
    前記表示装置が、前記電気通信又は前記無線ネットワークから前記識別信号を受け取って、前記話し手及び前記識別装置の一方又は両方の識別情報を示す感覚出力を前記受け取った識別信号から生成するよう構成され、
    前記送信機が、20,000Hzを上回る周波数で前記識別信号を前記端末に無線送信するよう構成され、前記装置が更に、前記識別装置と前記電気通信又は前記無線ネットワークとの間で通信可能に結合できる第1のエンコーダを備え、前記第1のエンコーダが、前記無線送信された識別信号を受け取って、
    a)20Hz〜20,000Hzの範囲の周波数を有する音声信号、
    又はb)暗号化されたデジタル信号
    のうちの一方に変換するよう動作可能であり、
    b)の場合、前記表示装置は、前記デジタル信号を復号するデコーダを備え、又は前記デコーダと通信可能に結合でき、
    前記第1のエンコーダが、前記端末内で一体化され、前記端末が、前記電気通信又は前記無線ネットワークとの間で音声通信を行うよう動作可能である、装置。
  2. 前記識別装置が、別の人の識別情報と再関連付け可能であるように構成される、請求項1に記載の装置。
  3. 前記感覚出力が、視覚出力、触覚出力、及び可聴出力の1つ又はそれ以上を含む、請求項1又は2に記載の装置。
  4. 前記識別装置が可視マーキングを備え、前記格納された識別データが前記可視マーキングを表す、請求項1〜3の何れかに記載の装置。
  5. 前記可視マーキングが、色及び形状の一方又は両方を含む、請求項4に記載の装置。
  6. 前記表示装置が、前記可視マーキングの視覚的表現を含む感覚出力を生成するよう動作可能である、請求項4又は5に記載の装置。
  7. 前記識別装置は、前記話し手からの連続した発話の最小持続時間後にだけ前記送信機が前記識別信号を送信するように構成されている、請求項1〜6の何れかに記載の装置。
  8. 前記最小持続時間が、0.5〜2秒の間である、請求項7に記載の装置。
  9. 前記識別装置が、前記話し手の首又は胸の近くに位置決めされる、請求項1〜8の何れかに記載の装置。
  10. 前記第1のエンコーダが、前記無線送信された識別信号を受け取って、300Hz〜3,400Hzの範囲の周波数を有する音声信号に変換するよう動作可能である、請求項1〜9の何れかに記載の装置。
  11. 前記識別装置が、前記送信機によりBluetooth信号として無線送信するために前記識別信号をエンコードするよう動作可能である、請求項1〜10の何れかに記載の装置。
  12. 前記装置が更に、前記表示装置内に一体化された又は前記表示装置に通信可能に接続できるフィルタを備え、該フィルタは、前記識別信号と前記話し手の発話の音声信号の両方を含む結合信号を、前記電気通信又は前記無線ネットワークから受け取るよう動作可能であり、更に前記結合信号をフィルタ処理し、フィルタ処理された信号を前記聞き手に音声出力する前に、前記結合信号から前記識別信号を抽出するよう動作可能である、請求項1〜11の何れかに記載の装置。
  13. 前記表示装置が、前記端末内に一体化され、該端末は前記電気通信又は前記無線ネットワークとの間で音声通信をするよう動作可能である、請求項1〜12の何れかに記載の装置。
JP2014082405A 2013-04-22 2014-04-14 未知の話し手を識別するシステム Expired - Fee Related JP6200369B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1307244.2 2013-04-22
GB1307244.2A GB2513559B8 (en) 2013-04-22 2013-04-22 Unknown speaker identification system

Publications (2)

Publication Number Publication Date
JP2014217055A JP2014217055A (ja) 2014-11-17
JP6200369B2 true JP6200369B2 (ja) 2017-09-20

Family

ID=48537612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014082405A Expired - Fee Related JP6200369B2 (ja) 2013-04-22 2014-04-14 未知の話し手を識別するシステム

Country Status (8)

Country Link
US (1) US9083808B2 (ja)
JP (1) JP6200369B2 (ja)
CN (2) CN110060688A (ja)
BR (1) BR102014009020A2 (ja)
CA (1) CA2848692C (ja)
DE (1) DE102014105570A1 (ja)
FR (1) FR3004880B1 (ja)
GB (1) GB2513559B8 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11039284B1 (en) * 2015-03-03 2021-06-15 Amtech Systems, LLC Vehicle tracking system using smart-phone as active transponder
US9704488B2 (en) * 2015-03-20 2017-07-11 Microsoft Technology Licensing, Llc Communicating metadata that identifies a current speaker
US10013996B2 (en) * 2015-09-18 2018-07-03 Qualcomm Incorporated Collaborative audio processing
US20170221336A1 (en) * 2016-01-28 2017-08-03 Flex Ltd. Human voice feedback system
CN111406400B (zh) * 2017-09-26 2022-05-10 惠普发展公司,有限责任合伙企业 会议电话参与者标识
CN107993666B (zh) * 2017-12-19 2021-01-29 北京华夏电通科技股份有限公司 语音识别方法、装置、计算机设备及可读存储介质
US10762906B2 (en) 2018-05-01 2020-09-01 International Business Machines Corporation Automatically identifying speakers in real-time through media processing with dialog understanding supported by AI techniques
US11836569B1 (en) 2019-12-06 2023-12-05 Amtech Systems, LLC Vehicle tracking system using smart-phone as active transponder
US11875034B2 (en) * 2021-09-27 2024-01-16 Honeywell International Inc. Systems and methods for flight deck customization and pilot performance analytics
FR3136622B1 (fr) * 2022-06-14 2024-06-21 Orange Procédé d’identification d’un équipement ayant associé un identifiant réseau, et procédé de fourniture de l’identité d’un équipement dans un réseau de communication.

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6457043B1 (en) 1998-10-23 2002-09-24 Verizon Laboratories Inc. Speaker identifier for multi-party conference
FR2799914B1 (fr) 1999-10-14 2001-12-28 France Telecom Identification d'intervenant dans une telereunion
CA2473195C (en) * 2003-07-29 2014-02-04 Microsoft Corporation Head mounted multi-sensory audio input system
US7305078B2 (en) * 2003-12-18 2007-12-04 Electronic Data Systems Corporation Speaker identification during telephone conferencing
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
WO2006076217A2 (en) * 2005-01-10 2006-07-20 Herman Miller, Inc. Method and apparatus of overlapping and summing speech for an output that disrupts speech
JP2006270352A (ja) * 2005-03-23 2006-10-05 Nec Corp 電話会議方法及びそのシステム並びにそのための近距離無線通信機能付き携帯通信端末装置
JP4372729B2 (ja) * 2005-07-13 2009-11-25 シャープ株式会社 実世界コミュニケーション管理装置
US7629897B2 (en) * 2005-10-21 2009-12-08 Reino Koljonen Orally Mounted wireless transcriber device
US20070133437A1 (en) 2005-12-13 2007-06-14 Wengrovitz Michael S System and methods for enabling applications of who-is-speaking (WIS) signals
US7664246B2 (en) 2006-01-13 2010-02-16 Microsoft Corporation Sorting speakers in a network-enabled conference
US7920158B1 (en) 2006-07-21 2011-04-05 Avaya Inc. Individual participant identification in shared video resources
US7822605B2 (en) 2006-10-19 2010-10-26 Nice Systems Ltd. Method and apparatus for large population speaker identification in telephone interactions
US20080255840A1 (en) * 2007-04-16 2008-10-16 Microsoft Corporation Video Nametags
US8243902B2 (en) 2007-09-27 2012-08-14 Siemens Enterprise Communications, Inc. Method and apparatus for mapping of conference call participants using positional presence
US8503653B2 (en) * 2008-03-03 2013-08-06 Alcatel Lucent Method and apparatus for active speaker selection using microphone arrays and speaker recognition
US8301443B2 (en) * 2008-11-21 2012-10-30 International Business Machines Corporation Identifying and generating audio cohorts based on audio data input
WO2012001928A1 (ja) * 2010-06-30 2012-01-05 パナソニック株式会社 会話検出装置、補聴器及び会話検出方法
US8209183B1 (en) * 2011-07-07 2012-06-26 Google Inc. Systems and methods for correction of text from different input types, sources, and contexts
JP5772448B2 (ja) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析システムおよび音声解析装置

Also Published As

Publication number Publication date
FR3004880B1 (fr) 2017-08-25
GB2513559A8 (en) 2016-06-29
FR3004880A1 (fr) 2014-10-24
CN110060688A (zh) 2019-07-26
BR102014009020A2 (pt) 2015-12-22
DE102014105570A1 (de) 2014-10-23
US20140314216A1 (en) 2014-10-23
GB201307244D0 (en) 2013-05-29
GB2513559A (en) 2014-11-05
CA2848692A1 (en) 2014-10-22
CA2848692C (en) 2016-12-20
JP2014217055A (ja) 2014-11-17
GB2513559B (en) 2015-11-04
CN104112449A (zh) 2014-10-22
GB2513559B8 (en) 2016-06-29
US9083808B2 (en) 2015-07-14

Similar Documents

Publication Publication Date Title
JP6200369B2 (ja) 未知の話し手を識別するシステム
CN1761265B (zh) 移动设备上的多传感语音增强方法和装置
US10109164B2 (en) Notification and alert method for person(s) and/or devices(s)
US11516599B2 (en) Personal hearing device, external acoustic processing device and associated computer program product
CN111294777A (zh) 一种蓝牙音频传输器的控制方法及通信方法
CN110915239A (zh) 用于助听器用户的在线自动音频转录
CN106612364A (zh) 一种信息传输方法和装置、及终端
KR101778548B1 (ko) 청각장애인을 위한 음성인식 및 보청지원이 가능한 회의 관리 방법 및 시스템
JPS5821961A (ja) 音声遠隔会議方式
Thibodeau Advanced practices: assistive technology in the age of smartphones and tablets
US11350247B2 (en) Communications server and method
US20150237488A1 (en) On-demand, real-time interpretation system and method
WO2024202805A1 (ja) 音響処理装置、情報送信装置及び音響処理システム
KR20240130954A (ko) 청각장애자를 위한 음성신호-진동신호 변환장치
JP2009048390A (ja) 店員呼出システム
Galster STREAM
JP2003008691A (ja) 対話型送受信方法およびシステム並びに対話型送受信端末装置
JP2015170923A (ja) 会話補助プログラム、通信装置及び電子文字情報の提供方法
JP2002271455A (ja) 電話機状態表示装置
JPH09331388A (ja) 簡易操作の電話装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150331

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150930

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160721

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20160729

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20160930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170616

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170825

R150 Certificate of patent or registration of utility model

Ref document number: 6200369

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees