JP2020504413A - 人工知能自動話者識別方法を用いる個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバ - Google Patents

人工知能自動話者識別方法を用いる個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバ Download PDF

Info

Publication number
JP2020504413A
JP2020504413A JP2019558316A JP2019558316A JP2020504413A JP 2020504413 A JP2020504413 A JP 2020504413A JP 2019558316 A JP2019558316 A JP 2019558316A JP 2019558316 A JP2019558316 A JP 2019558316A JP 2020504413 A JP2020504413 A JP 2020504413A
Authority
JP
Japan
Prior art keywords
service
speaker
service providing
voice
providing server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019558316A
Other languages
English (en)
Other versions
JP6909311B2 (ja
Inventor
チョン、ヒ−ソク
ヨプ イ、ヒョン
ヨプ イ、ヒョン
フン チン、セ
フン チン、セ
テク イム、ヒョン
テク イム、ヒョン
Original Assignee
パワーボイス カンパニー リミテッド
パワーボイス カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パワーボイス カンパニー リミテッド, パワーボイス カンパニー リミテッド filed Critical パワーボイス カンパニー リミテッド
Publication of JP2020504413A publication Critical patent/JP2020504413A/ja
Application granted granted Critical
Publication of JP6909311B2 publication Critical patent/JP6909311B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

人工知能自動話者識別方法を用いる個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバを提供する。本発明は、サービス提供サーバがユーザ端末から話者の音声が含まれたサービス提供要求メッセージを受信し、サービス提供要求メッセージに含まれた音声を分析して音声の話者を識別し、話者識別情報に基づいて話者のためのカスタマイズ型サービスの提供に必要な制御コマンドを生成し、生成した制御コマンドを外部電子機器に送信する過程を介して実現される。本発明によると、音声認識サービスを用いる話者を識別することができようになって、正当な使用権限のない者が音声認識サービスを無断で用いることを防止することができるだけでなく、同じ音声認識サービスを用いる複数のユーザがいる場合であって、個々のユーザ固有情報を考慮したカスタマイズ型音声認識サービスを提供できるようになる。

Description

本発明は個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバに関するもので、より詳細には、音声認識サービスを用いる話者を識別することができようになって、正当な使用権限のない者が音声認識サービスを無断で用いることを防止することができるだけでなく、同じ音声認識サービスを用いる複数のユーザがいる場合であって、個々のユーザ固有情報を考慮したカスタマイズ型音声認識サービスを提供できるようにする人工知能自動話者識別方法を用いる個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバに関するものである。
最近、音声認識技術の発展に伴い、アップルのSiri、グーグルのNow、マイクロソフトのCortana、アマゾンのAlexaなどのような様々な音声認識サービスが出現されている。
しかし、従来技術による音声認識サービスは単に話者の音声コマンドに反応して、それに関連されるサービスを提供することに過ぎず、音声認識サービスを提供する過程で話者の固有性(Identity)を識別しない。
その結果、当該音声認識サービスを利用できる正当な使用権限のない者であっても、音声認識サービスを無断で用いることができるだけでなく、同じ音声認識サービスを用いる複数のユーザがいる場合であって、個々のユーザ別カスタマイズ型サービスを提供することができない技術的な限界がある。
従って、本発明の目的は、音声認識サービスを用いる話者を識別することができようになって、正当な使用権限のない者が音声認識サービスを無断で用いることを防止することができるだけでなく、同じ音声認識サービスを用いる複数のユーザがいる場合であって、個々のユーザ固有情報を考慮したカスタマイズ型音声認識サービスを提供できるようにする人工知能自動話者識別方法を用いる個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバを提供することにある。
前記目的を達成するための本発明に係る個人カスタマイズ型音声認識サービスの提供方法は、(a)サービス提供サーバが、ユーザ端末から話者の音声が含まれたサービス提供要求メッセージを受信するステップ; (b)前記サービス提供サーバが、前記サービス提供要求メッセージに含まれた前記音声を分析して前記音声の話者を識別するステップ;(c)前記サービス提供サーバが、話者識別情報に基づいて前記話者のためのカスタマイズ型サービスの提供に必要な制御コマンドを生成するステップ;及び(d)前記サービス提供サーバが、生成された前記制御コマンドを外部電子機器に送信するステップを含む。
好ましくは、前記(b)段階は、(b1)前記サービス提供サーバが、前記音声に対するテキスト依存型話者識別を行うステップ;及び(b2)前記サービス提供サーバが、前記音声に対するテキスト独立型話者識別を行うステップを含むことを特徴とする。
一方、本発明に係るサービス提供サーバは、ユーザ端末から話者の音声が含まれたサービス提供要求メッセージを受信する受信部;前記サービス提供要求メッセージに含まれた前記音声を分析して前記音声の話者を識別する話者識別部;前記話者識別部が生成した話者識別情報に基づいて前記話者のためのカスタマイズ型サービスの提供に必要な制御コマンドを生成する判断部;及び前記制御コマンドを外部電子機器に送信する送信部を含む。
好ましくは、前記話者識別部は、前記音声に対するテキスト依存型話者識別及び前記音声に対するテキスト独立型話者識別を行うことを特徴とする。
本発明によると、音声認識サービスを用いる話者を識別することができようになって、正当な使用権限のない者が音声認識サービスを無断で用いることを防止することができるだけでなく、同じ音声認識サービスを用いる複数のユーザがいる場合であって、個々のユーザ固有情報を考慮したカスタマイズ型音声認識サービスを提供できるようになる。
本発明の一実施形態に係る個人カスタマイズ型音声認識サービス提供システムの構造を示す模式図である。 本発明の一実施形態に係る個人カスタマイズ型音声認識サービスを提供するサービス提供サーバの構造を示す機能ブロック図である。 本発明の一実施形態に係る個人カスタマイズ型音声認識サービスの提供方法の実行過程を説明する信号の流れを示すフローチャートである。
以下では図面を参照して本発明をより詳細に説明する。図面のうち同じ構成要素は可能な限りどこでも同じ符号で示していることに留意しなければならない。また、本発明の要旨を不要に曖昧にし得ると判断される公知機能及び構成についての詳細な説明は省略する。
図1は本発明の一実施形態に係る話者識別情報に基づいた個人カスタマイズ型サービス提供システムの構造を示す模式図である。図1を参照すると、本発明の一実施形態に係る話者識別情報に基づいた個人カスタマイズ型サービス提供システムはユーザ端末100、サービス提供サーバ200、及び外部電子機器300を含む。
ユーザ端末100は家庭のリビングルームなどのように、ユーザが居住している空間に設置されている端末であって、マイクモジュールとスピーカモジュールを一体として備えており、サービス提供サーバ200またはユーザが所持しているスマートフォンなどの無線通信端末と無線通信を行う通信モジュールを備えている。
具体的には、ユーザ端末100は話者のサービス要求の音声をマイクモジュールを介して入力を受け、当該音声を含むサービス提供要求メッセージをサービス提供サーバ200に送信し、その後サービス提供サーバ200から受信したカスタマイズ型サービス提案メッセージをスピーカモジュールを介して出力する機能を行う。
一方、本発明を実施するに当たって、ユーザ端末100はスマートフォンなどの無線通信端末と近距離通信を行うこともできる。このような場合には、ユーザが無線通信端末を介して入力したサービス要求の音声はユーザ端末100に転送され、ユーザ端末100は当該音声を含むサービス提供要求メッセージをサービス提供サーバ200に送信するようになる。
また、このような場合に、ユーザ端末100はサービス提供サーバ200から受信したカスタマイズ型サービス提案メッセージを無線通信端末に転送するようになり、当該メッセージは無線通信端末を介してユーザに出力される。
一方、本発明を実施するに当たって、ユーザが所持しているスマートフォンなどの無線通信端末が、それ自体として前述したユーザ端末100の機能を行うこともあり得る。
サービス提供サーバ200は本発明に係る個人カスタマイズ型音声認識サービスを提供する事業者が設置及び運営するサーバーであって、サービス提供サーバ200はユーザ端末100から話者の音声が含まれたサービス提供要求メッセージを受信し、当該サービス提供要求メッセージに含まれた音声を分析して、当該音声の話者を識別し、話者識別情報に基づいてカスタマイズ型サービスの提供に必要な制御コマンドを生成し、生成した制御コマンドを外部電子機器300に送信する機能を行う。
一方、外部電子機器300はサービス提供サーバ200からの制御コマンドに基づいて動作する装置であって、家庭内に設置されているスマートTV、サービス提供サーバ200と連動される照明機器、暖房機器、エアコンなどの様々なモノのインターネット(IoT)の機器になり得る。
図2は本発明の一実施形態に係る個人カスタマイズ型音声認識サービスを提供するサービス提供サーバ200の構造を示す機能ブロック図である。図2を参照すると、本発明の一実施形態に係る個人カスタマイズ型音声認識サービスを提供するサービス提供サーバ200は、受信部210、格納部230、話者識別部250、判断部270、及び送信部290を含む。
まず、サービス提供サーバ200の受信部210はユーザ端末100から話者の音声が含まれたサービス提供要求メッセージを受信し、当該メッセージは格納部230に格納される。
一方、サービス提供サーバ200の格納部230にはユーザ端末100から受信したサービス提供要求メッセージの以外にも、スマートTVなどの外部電子機器300を介して出力される音源、動画などの様々なメディアコンテンツファイル及びファイルリストが格納されてあり、ユーザ端末100を使用する複数のユーザの音声登録情報、それぞれのユーザに提供した個人カスタマイズ型音声認識サービスのリスト、及びサービス提供サーバ200を介して制御可能な複数の外部電子機器300のIPアドレスを含む機器登録情報がそれぞれ格納される。
また、サービス提供サーバ200の話者識別部250はユーザ端末100から受信したサービス提供要求メッセージに含まれた音声情報を抽出及び分析することによって、当該音声の話者を識別する。
具体的には、話者識別部250はサービス提供要求メッセージに含まれた音声に対するテキスト依存型分析による話者識別と共に、当該音声に対するテキスト独立型分析による話者識別を並行し、このように独立して行った二つの識別結果に基づいて最終的に話者を識別する。
一方、サービス提供サーバ200の判断部270は話者識別部250が生成した話者識別情報に基づいて当該話者のためのサービスを提供する外部電子機器300、及び当該外部電子機器300を介して提供するカスタマイズ型サービスを決定し、当該サービスの提供に必要な外部電子機器300の制御コマンドを生成する。
サービス提供サーバ200の送信部290は判断部270が生成した前記制御コマンドを前記判断部270が選択した外部電子機器300に送信し、また、判断部270が生成したカスタマイズ型サービス提案メッセージをユーザ端末100に送信する機能を行う。
図3は本発明の一実施形態に係る個人カスタマイズ型音声認識サービスの提供方法の実行過程を説明する信号の流れを示すフローチャートである。以下、図1〜図3を参照して、本発明の一実施形態に係る話者識別情報に基づいた個人カスタマイズ型サービスの提供方法を説明する。
まず、サービス提供サーバ200はスマートTV、サービス提供サーバ200と連動される照明機器、暖房機器、及びエアコンなどのモノのインターネット(IoT)用の機器である外部電子機器300から登録情報を受信し、受信した外部電子機器300の登録情報はサービス提供サーバ200の格納部230に格納される(S400)。
具体的には、外部電子機器300の登録情報は外部電子機器300の機器種類情報(照明機器、映像機器、暖房機器、冷房機器等)と、外部電子機器300のIPアドレス情報を含むことが好ましい。
また、サービス提供サーバ200はユーザ端末100から、このユーザ端末100を使用する複数のユーザの音声登録要求を受信し、音声登録要求に含まれた複数のユーザの個別音声情報はそれぞれのユーザに付与されたユーザ名情報を含むユーザ情報にマッピングされ、次の表1に示すように格納部230に格納される(S405)。
具体的には、下記表1におけるユーザ情報(ユーザID、性別、年齢、好みのコンテンツ情報)はPCまたはスマートフォンを通じて個人カスタマイズ型音声認識サービスに加入する手続きで、それぞれのユーザのPCやスマートフォンを通じて入力した情報をサービス提供サーバ200が受信及び格納しておくことによって、備えることができる。
以後、ユーザ端末100が設置されている空間内にある特定ユーザ(USER1)が「Olleh!、退屈だから何か面白いものはない?」のように言う場合、ユーザ端末100は前述のような話者の音声を受信し(S410)、受信した話者の音声が含まれたサービス提供要求メッセージを生成した後、これをサービス提供サーバ200に送信する(S415)。
これにより、サービス提供サーバ200の受信部210はユーザ端末100からサービス提供要求メッセージを受信し、サービス提供サーバ200の話者識別部250は当該サービス提供要求メッセージから話者の音声を抽出する(S420)。
次に、サービス提供サーバ200の話者識別部250は話者の音声を分析して、表1における登録音声データと同じ形式を有する話者の音声データを抽出し、抽出した話者の音声データを表1に示すように格納部230に既に登録されている音声データと比較することによって、話者を識別する(S425)。
具体的には、前述したS425のステップを実施するに当たって、サービス提供サーバ200の話者識別部250は抽出した話者の音声「Olleh!、退屈だから何か面白いものはない?」の中で、「Olleh!」の部分(いわゆる、呼び出し部分)についてはテキスト依存型音声分析及び話者識別を行い、「退屈だから何か面白いものはない?」部分(いわゆる、要求部分)についてはテキスト独立型音声分析及び話者識別を独立して行った後、このように独立して行った二つの識別結果に基づいて最終的に話者を識別することが好ましい。
これにより、サービス提供サーバ200の話者識別部250が当該音声に対する話者を表1における「USER1」として識別した場合に、サービス提供サーバ200の判断部270は表1におけるユーザ情報と、「退屈だから何か面白いものはない?」(要求部分)の音声分析結果に基づいて、「USER1」のためのカスタマイズ型コンテンツとして「米国ドラマ」を決定することになる(S430)。
一方、サービス提供サーバ200の判断部270が「退屈だから何か面白いものはない?」(要求部分)に対する音声分析及び音声認識を行うことに当たっては、従来技術による様々な音声認識サービスにおける音声分析及び認識技術を使用することができる。
具体的には、S430のステップを実施するに当たって、サービス提供サーバ200の判断部270は「USER1」の好みのコンテンツ情報である「米国ドラマ/家族映画/最新歌謡」の中で、「USER1」の年齢帯に属する他の女性会員の好みのコンテンツ情報を参考にして、相対的に高い好みのコンテンツである「米国ドラマ」を「USER1」のためのカスタマイズ型コンテンツとして「米国ドラマ」を決定することもあり得る。
これにより、サービス提供サーバ200の判断部270は、「はい、Olleh TVで推薦する米国ドラマを視聴しますか?」のようなカスタマイズ型サービス提案メッセージを生成し、サービス提供サーバ200の送信部290は当該メッセージをユーザ端末100に送信する(S435)。
これにより、ユーザ端末100はサービス提供サーバ200からのカスタマイズ型サービス提案メッセージをスピーカモジュールを介してユーザに出力することになる。
一方、本発明を実施するに当たって、ユーザ端末100を介して出力されたカスタマイズ型サービス提案メッセージを「USER1」だけでなく、同じ空間内にある他のユーザも聴取することがあり得る。これに対して、他のユーザは、「Olleh!、私は嫌い、他のものを推薦してくれ」のように言うこともできる。
この場合に、ユーザ端末100は前述のような他のユーザの音声を受信し(S440)、受信した音声が含まれたサービス提供要求メッセージをサービス提供サーバ200に送信する(S445)。
これにより、サービス提供サーバ200の受信部210はユーザ端末100からサービス提供要求メッセージを受信し、サービス提供サーバ200の話者識別部250は当該サービス提供要求メッセージから話者の音声を抽出する(S450)。
以後、サービス提供サーバ200の識別部は話者の音声を分析して、表1における登録音声データと同じ形式を有する話者の音声データを抽出し、抽出した音声データを表1に示すように格納部230に既に登録されている音声データと比較することによって、話者を特定する(S455)。
これにより、サービス提供サーバ200の識別部が話者を表1における「USER2」として識別した場合に、サービス提供サーバ200の判断部270は表1におけるユーザ情報に基づいて、「USER1」だけでなく、「USER2」も共に考慮してカスタマイズ型コンテンツを再決定する。その結果、「家族映画」を「USER1」と「USER2」のためのカスタマイズ型コンテンツとして決定することができる(S460)。
具体的には、S460のステップを実施するに当たって、サービス提供サーバ200の判断部270は「USER1」の好みのコンテンツ情報である「米国ドラマ/家族映画/最新歌謡」と、「USER2」の好みのコンテンツ情報である「家族映画/アクション映画/ヒップホップ音楽」に共通して含まれているコンテンツ情報である「家族映画」をカスタマイズ型コンテンツとして決定することができるようになる。
これにより、サービス提供サーバ200の判断部270は、「はい、それではOlleh TVで推薦する家族映画を視聴しますか?」のようなカスタマイズ型サービス提案メッセージを生成するようになり、サービス提供サーバ200の送信部290は当該メッセージをユーザ端末100に送信する(S465)。
これにより、ユーザ端末100はサービス提供サーバ200からのカスタマイズ型サービス提案メッセージをスピーカモジュールを介して出力し、これを聴取したユーザ(USER1またはUSER2)が「Olleh!、好き」のように言う場合、ユーザ端末100は前述のようなユーザの承認音声を受信し(S470)し、承認音声が含まれたカスタマイズ型サービス承認メッセージをサービス提供サーバ200に送信する。
これにより、サービス提供サーバ200の判断部270はカスタマイズ型コンテンツである「家族映画」の再生または家族映画リストの推薦に必要な制御コマンドを生成し、当該制御コマンドを受信する外部電子機器300を選択する。
具体的には、サービス提供サーバ200の判断部270は格納部230に登録されている外部電子機器300の中で、「家族映画」の再生または家族映画リストの推薦を行う電子機器(300)としてスマートTVを選択し、サービス提供サーバ200の送信部290は格納部230に登録されているスマートTVのIPアドレスに当該制御コマンドを送信する。
その結果、スマートTVはサービス提供サーバ200から受信した制御コマンドに基づいて、「家族映画」の再生または再生リスト、即ち家族映画リストの推薦を行うことになる。
本発明において使用した用語は単に特定の実施形態を説明するために使われたもので、本発明を限定しようとする意図ではない。単数の表現は文脈上明白に異なるように意味しない限り、複数の表現を含む。本出願において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、段階、動作、構成要素、部分品又は、それらを組み合わせたものが存在することを指定しようとするものであって、一つ又は、それ以上の他の特徴や数字、段階、動作、構成要素、部品又は、それらを組み合わせたものなどの存在又は、付加の可能性を予め排除しないことと理解すべきであろう。
以上では本発明の好ましい実施形態及び応用例について図示及び説明したが、本発明は前述した特定の実施形態及び応用例に限定されず、請求範囲で請求する本発明の要旨を逸脱することなく当該発明が属する技術分野で通常の知識を有する者により多様な変形実施が可能であることは勿論であり、このような変形実施は本発明の技術的思想や展望から個別的に理解されてはならない。
本発明は音声認識サービス産業分野における産業上の利用可能性が認められる。

Claims (2)

  1. (a)サービス提供サーバが、ユーザ端末から話者の音声が含まれたサービス提供要求メッセージを受信するステップ;
    (b)前記サービス提供サーバが、前記サービス提供要求メッセージに含まれた前記音声を分析して前記音声の話者を識別するステップ;
    (c)前記サービス提供サーバが、話者識別情報に基づいて前記話者のためのカスタマイズ型サービスの提供に必要な制御コマンドを生成するステップ;及び
    (d)前記サービス提供サーバが、生成された前記制御コマンドを外部電子機器に送信するステップを含む個人カスタマイズ型音声認識サービスを提供する方法。
  2. ユーザ端末から話者の音声が含まれたサービス提供要求メッセージを受信する受信部;
    前記サービス提供要求メッセージに含まれた前記音声を分析して前記音声の話者を識別する話者識別部;
    前記話者識別部が生成した話者識別情報に基づいて前記話者のためのカスタマイズ型サービスの提供に必要な制御コマンドを生成する判断部;及び
    前記制御コマンドを外部電子機器に送信する送信部を含むサービス提供サーバ。
JP2019558316A 2017-01-11 2017-04-07 人工知能自動話者識別方法を用いる個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバ Active JP6909311B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020170004094A KR101883301B1 (ko) 2017-01-11 2017-01-11 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버
KR10-2017-0004094 2017-01-11
PCT/KR2017/003807 WO2018131752A1 (ko) 2017-01-11 2017-04-07 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버

Publications (2)

Publication Number Publication Date
JP2020504413A true JP2020504413A (ja) 2020-02-06
JP6909311B2 JP6909311B2 (ja) 2021-07-28

Family

ID=62839511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019558316A Active JP6909311B2 (ja) 2017-01-11 2017-04-07 人工知能自動話者識別方法を用いる個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバ

Country Status (4)

Country Link
US (1) US11087768B2 (ja)
JP (1) JP6909311B2 (ja)
KR (1) KR101883301B1 (ja)
WO (1) WO2018131752A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101883301B1 (ko) * 2017-01-11 2018-07-30 (주)파워보이스 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버
US10258295B2 (en) 2017-05-09 2019-04-16 LifePod Solutions, Inc. Voice controlled assistance for monitoring adverse events of a user and/or coordinating emergency actions such as caregiver communication
KR102574903B1 (ko) * 2018-08-08 2023-09-05 삼성전자주식회사 개인화된 장치 연결을 지원하는 전자 장치 및 그 방법
CN109102803A (zh) * 2018-08-09 2018-12-28 珠海格力电器股份有限公司 家电设备的控制方法、装置、存储介质及电子装置
CN109117235B (zh) 2018-08-24 2019-11-05 腾讯科技(深圳)有限公司 一种业务数据处理方法、装置以及相关设备
KR102275873B1 (ko) 2018-12-18 2021-07-12 한국전자기술연구원 화자인식 장치 및 방법
KR20200098025A (ko) 2019-02-11 2020-08-20 삼성전자주식회사 전자 장치 및 그 제어 방법
US11468886B2 (en) 2019-03-12 2022-10-11 Lg Electronics Inc. Artificial intelligence apparatus for performing voice control using voice extraction filter and method for the same
US11404062B1 (en) 2021-07-26 2022-08-02 LifePod Solutions, Inc. Systems and methods for managing voice environments and voice routines
US11410655B1 (en) 2021-07-26 2022-08-09 LifePod Solutions, Inc. Systems and methods for managing voice environments and voice routines

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774858A (en) * 1995-10-23 1998-06-30 Taubkin; Vladimir L. Speech analysis method of protecting a vehicle from unauthorized accessing and controlling
JP2004032685A (ja) * 2002-03-07 2004-01-29 Matsushita Electric Ind Co Ltd コンピュータテレホニーによる保護資源アクセスシステムおよび保護資源アクセス方法
JP2005086768A (ja) * 2003-09-11 2005-03-31 Toshiba Corp 制御装置、制御方法およびプログラム
US20100131273A1 (en) * 2008-11-26 2010-05-27 Almog Aley-Raz Device,system, and method of liveness detection utilizing voice biometrics
US20130325473A1 (en) * 2012-05-31 2013-12-05 Agency For Science, Technology And Research Method and system for dual scoring for text-dependent speaker verification

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050023941A (ko) * 2003-09-03 2005-03-10 삼성전자주식회사 음성 인식 및 화자 인식을 통한 개별화된 서비스를제공하는 a/v 장치 및 그 방법
KR20080023033A (ko) 2006-09-08 2008-03-12 한국전자통신연구원 지능형 로봇 서비스 시스템에서 무선 마이크로폰을 이용한화자 인식 방법 및 장치
KR101330328B1 (ko) 2010-12-14 2013-11-15 한국전자통신연구원 음성 인식 방법 및 이를 위한 시스템
KR20140119968A (ko) * 2013-04-01 2014-10-13 삼성전자주식회사 콘텐츠 서비스 방법 및 시스템
TWI508057B (zh) * 2013-07-15 2015-11-11 Chunghwa Picture Tubes Ltd 語音辨識系統以及方法
US20150025888A1 (en) * 2013-07-22 2015-01-22 Nuance Communications, Inc. Speaker recognition and voice tagging for improved service
JP6054283B2 (ja) * 2013-11-27 2016-12-27 シャープ株式会社 音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラム、サーバの制御プログラムおよび音声認識端末の制御方法
WO2016018111A1 (en) * 2014-07-31 2016-02-04 Samsung Electronics Co., Ltd. Message service providing device and method of providing content via the same
KR102249392B1 (ko) * 2014-09-02 2021-05-07 현대모비스 주식회사 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치 및 방법
KR102383791B1 (ko) * 2014-12-11 2022-04-08 삼성전자주식회사 전자 장치에서의 개인 비서 서비스 제공
JP6084654B2 (ja) * 2015-06-04 2017-02-22 シャープ株式会社 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
KR101883301B1 (ko) * 2017-01-11 2018-07-30 (주)파워보이스 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774858A (en) * 1995-10-23 1998-06-30 Taubkin; Vladimir L. Speech analysis method of protecting a vehicle from unauthorized accessing and controlling
JP2004032685A (ja) * 2002-03-07 2004-01-29 Matsushita Electric Ind Co Ltd コンピュータテレホニーによる保護資源アクセスシステムおよび保護資源アクセス方法
JP2005086768A (ja) * 2003-09-11 2005-03-31 Toshiba Corp 制御装置、制御方法およびプログラム
US20100131273A1 (en) * 2008-11-26 2010-05-27 Almog Aley-Raz Device,system, and method of liveness detection utilizing voice biometrics
US20130325473A1 (en) * 2012-05-31 2013-12-05 Agency For Science, Technology And Research Method and system for dual scoring for text-dependent speaker verification

Also Published As

Publication number Publication date
US11087768B2 (en) 2021-08-10
WO2018131752A1 (ko) 2018-07-19
US20190378518A1 (en) 2019-12-12
KR20180082783A (ko) 2018-07-19
KR101883301B1 (ko) 2018-07-30
JP6909311B2 (ja) 2021-07-28

Similar Documents

Publication Publication Date Title
JP6909311B2 (ja) 人工知能自動話者識別方法を用いる個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバ
JP6906048B2 (ja) 音声インターフェイスデバイスにおけるマルチユーザパーソナライゼーション
US11670297B2 (en) Device leadership negotiation among voice interface devices
KR102299239B1 (ko) 공동 디바이스 상의 가상 어시스턴트 시스템에 대한 개인 도메인
CN110800044B (zh) 用于语音助手系统的话语权限管理
KR102213637B1 (ko) 디바이스들 간의 상태 상호작용의 캡슐화 및 동기화
EP3520100B1 (en) Noise mitigation for a voice interface device
CN112136102B (zh) 信息处理装置、信息处理方法以及信息处理系统
US11582110B2 (en) Techniques for sharing device capabilities over a network of user devices
US20220335938A1 (en) Techniques for communication between hub device and multiple endpoints
CN117136352A (zh) 用于集线器设备与多个端点之间的通信的技术
JP2020173388A (ja) 音声入力装置、音声操作システム、音声操作方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190716

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200923

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201222

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20201222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20201222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210702

R150 Certificate of patent or registration of utility model

Ref document number: 6909311

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350