JP2020504413A

JP2020504413A - 人工知能自動話者識別方法を用いる個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバ

Info

Publication number: JP2020504413A
Application number: JP2019558316A
Authority: JP
Inventors: チョン、ヒ−ソク; ヨプイ、ヒョン; フンチン、セ; テクイム、ヒョン
Original assignee: パワーボイスカンパニーリミテッド
Priority date: 2017-01-11
Filing date: 2017-04-07
Publication date: 2020-02-06
Anticipated expiration: 2037-04-07
Also published as: US11087768B2; WO2018131752A1; US20190378518A1; KR20180082783A; KR101883301B1; JP6909311B2

Abstract

人工知能自動話者識別方法を用いる個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバを提供する。本発明は、サービス提供サーバがユーザ端末から話者の音声が含まれたサービス提供要求メッセージを受信し、サービス提供要求メッセージに含まれた音声を分析して音声の話者を識別し、話者識別情報に基づいて話者のためのカスタマイズ型サービスの提供に必要な制御コマンドを生成し、生成した制御コマンドを外部電子機器に送信する過程を介して実現される。本発明によると、音声認識サービスを用いる話者を識別することができようになって、正当な使用権限のない者が音声認識サービスを無断で用いることを防止することができるだけでなく、同じ音声認識サービスを用いる複数のユーザがいる場合であって、個々のユーザ固有情報を考慮したカスタマイズ型音声認識サービスを提供できるようになる。

Description

本発明は個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバに関するもので、より詳細には、音声認識サービスを用いる話者を識別することができようになって、正当な使用権限のない者が音声認識サービスを無断で用いることを防止することができるだけでなく、同じ音声認識サービスを用いる複数のユーザがいる場合であって、個々のユーザ固有情報を考慮したカスタマイズ型音声認識サービスを提供できるようにする人工知能自動話者識別方法を用いる個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバに関するものである。

最近、音声認識技術の発展に伴い、アップルのＳｉｒｉ、グーグルのＮｏｗ、マイクロソフトのＣｏｒｔａｎａ、アマゾンのＡｌｅｘａなどのような様々な音声認識サービスが出現されている。

しかし、従来技術による音声認識サービスは単に話者の音声コマンドに反応して、それに関連されるサービスを提供することに過ぎず、音声認識サービスを提供する過程で話者の固有性（Ｉｄｅｎｔｉｔｙ）を識別しない。

その結果、当該音声認識サービスを利用できる正当な使用権限のない者であっても、音声認識サービスを無断で用いることができるだけでなく、同じ音声認識サービスを用いる複数のユーザがいる場合であって、個々のユーザ別カスタマイズ型サービスを提供することができない技術的な限界がある。

従って、本発明の目的は、音声認識サービスを用いる話者を識別することができようになって、正当な使用権限のない者が音声認識サービスを無断で用いることを防止することができるだけでなく、同じ音声認識サービスを用いる複数のユーザがいる場合であって、個々のユーザ固有情報を考慮したカスタマイズ型音声認識サービスを提供できるようにする人工知能自動話者識別方法を用いる個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバを提供することにある。

前記目的を達成するための本発明に係る個人カスタマイズ型音声認識サービスの提供方法は、（ａ）サービス提供サーバが、ユーザ端末から話者の音声が含まれたサービス提供要求メッセージを受信するステップ；（ｂ）前記サービス提供サーバが、前記サービス提供要求メッセージに含まれた前記音声を分析して前記音声の話者を識別するステップ；（ｃ）前記サービス提供サーバが、話者識別情報に基づいて前記話者のためのカスタマイズ型サービスの提供に必要な制御コマンドを生成するステップ；及び（ｄ）前記サービス提供サーバが、生成された前記制御コマンドを外部電子機器に送信するステップを含む。

好ましくは、前記（ｂ）段階は、（ｂ１）前記サービス提供サーバが、前記音声に対するテキスト依存型話者識別を行うステップ；及び（ｂ２）前記サービス提供サーバが、前記音声に対するテキスト独立型話者識別を行うステップを含むことを特徴とする。

一方、本発明に係るサービス提供サーバは、ユーザ端末から話者の音声が含まれたサービス提供要求メッセージを受信する受信部；前記サービス提供要求メッセージに含まれた前記音声を分析して前記音声の話者を識別する話者識別部；前記話者識別部が生成した話者識別情報に基づいて前記話者のためのカスタマイズ型サービスの提供に必要な制御コマンドを生成する判断部；及び前記制御コマンドを外部電子機器に送信する送信部を含む。

好ましくは、前記話者識別部は、前記音声に対するテキスト依存型話者識別及び前記音声に対するテキスト独立型話者識別を行うことを特徴とする。

本発明によると、音声認識サービスを用いる話者を識別することができようになって、正当な使用権限のない者が音声認識サービスを無断で用いることを防止することができるだけでなく、同じ音声認識サービスを用いる複数のユーザがいる場合であって、個々のユーザ固有情報を考慮したカスタマイズ型音声認識サービスを提供できるようになる。

本発明の一実施形態に係る個人カスタマイズ型音声認識サービス提供システムの構造を示す模式図である。本発明の一実施形態に係る個人カスタマイズ型音声認識サービスを提供するサービス提供サーバの構造を示す機能ブロック図である。本発明の一実施形態に係る個人カスタマイズ型音声認識サービスの提供方法の実行過程を説明する信号の流れを示すフローチャートである。

以下では図面を参照して本発明をより詳細に説明する。図面のうち同じ構成要素は可能な限りどこでも同じ符号で示していることに留意しなければならない。また、本発明の要旨を不要に曖昧にし得ると判断される公知機能及び構成についての詳細な説明は省略する。

図１は本発明の一実施形態に係る話者識別情報に基づいた個人カスタマイズ型サービス提供システムの構造を示す模式図である。図１を参照すると、本発明の一実施形態に係る話者識別情報に基づいた個人カスタマイズ型サービス提供システムはユーザ端末１００、サービス提供サーバ２００、及び外部電子機器３００を含む。

ユーザ端末１００は家庭のリビングルームなどのように、ユーザが居住している空間に設置されている端末であって、マイクモジュールとスピーカモジュールを一体として備えており、サービス提供サーバ２００またはユーザが所持しているスマートフォンなどの無線通信端末と無線通信を行う通信モジュールを備えている。

具体的には、ユーザ端末１００は話者のサービス要求の音声をマイクモジュールを介して入力を受け、当該音声を含むサービス提供要求メッセージをサービス提供サーバ２００に送信し、その後サービス提供サーバ２００から受信したカスタマイズ型サービス提案メッセージをスピーカモジュールを介して出力する機能を行う。

一方、本発明を実施するに当たって、ユーザ端末１００はスマートフォンなどの無線通信端末と近距離通信を行うこともできる。このような場合には、ユーザが無線通信端末を介して入力したサービス要求の音声はユーザ端末１００に転送され、ユーザ端末１００は当該音声を含むサービス提供要求メッセージをサービス提供サーバ２００に送信するようになる。

また、このような場合に、ユーザ端末１００はサービス提供サーバ２００から受信したカスタマイズ型サービス提案メッセージを無線通信端末に転送するようになり、当該メッセージは無線通信端末を介してユーザに出力される。

一方、本発明を実施するに当たって、ユーザが所持しているスマートフォンなどの無線通信端末が、それ自体として前述したユーザ端末１００の機能を行うこともあり得る。

サービス提供サーバ２００は本発明に係る個人カスタマイズ型音声認識サービスを提供する事業者が設置及び運営するサーバーであって、サービス提供サーバ２００はユーザ端末１００から話者の音声が含まれたサービス提供要求メッセージを受信し、当該サービス提供要求メッセージに含まれた音声を分析して、当該音声の話者を識別し、話者識別情報に基づいてカスタマイズ型サービスの提供に必要な制御コマンドを生成し、生成した制御コマンドを外部電子機器３００に送信する機能を行う。

一方、外部電子機器３００はサービス提供サーバ２００からの制御コマンドに基づいて動作する装置であって、家庭内に設置されているスマートＴＶ、サービス提供サーバ２００と連動される照明機器、暖房機器、エアコンなどの様々なモノのインターネット（ＩｏＴ）の機器になり得る。

図２は本発明の一実施形態に係る個人カスタマイズ型音声認識サービスを提供するサービス提供サーバ２００の構造を示す機能ブロック図である。図２を参照すると、本発明の一実施形態に係る個人カスタマイズ型音声認識サービスを提供するサービス提供サーバ２００は、受信部２１０、格納部２３０、話者識別部２５０、判断部２７０、及び送信部２９０を含む。

まず、サービス提供サーバ２００の受信部２１０はユーザ端末１００から話者の音声が含まれたサービス提供要求メッセージを受信し、当該メッセージは格納部２３０に格納される。

一方、サービス提供サーバ２００の格納部２３０にはユーザ端末１００から受信したサービス提供要求メッセージの以外にも、スマートＴＶなどの外部電子機器３００を介して出力される音源、動画などの様々なメディアコンテンツファイル及びファイルリストが格納されてあり、ユーザ端末１００を使用する複数のユーザの音声登録情報、それぞれのユーザに提供した個人カスタマイズ型音声認識サービスのリスト、及びサービス提供サーバ２００を介して制御可能な複数の外部電子機器３００のＩＰアドレスを含む機器登録情報がそれぞれ格納される。

また、サービス提供サーバ２００の話者識別部２５０はユーザ端末１００から受信したサービス提供要求メッセージに含まれた音声情報を抽出及び分析することによって、当該音声の話者を識別する。

具体的には、話者識別部２５０はサービス提供要求メッセージに含まれた音声に対するテキスト依存型分析による話者識別と共に、当該音声に対するテキスト独立型分析による話者識別を並行し、このように独立して行った二つの識別結果に基づいて最終的に話者を識別する。

一方、サービス提供サーバ２００の判断部２７０は話者識別部２５０が生成した話者識別情報に基づいて当該話者のためのサービスを提供する外部電子機器３００、及び当該外部電子機器３００を介して提供するカスタマイズ型サービスを決定し、当該サービスの提供に必要な外部電子機器３００の制御コマンドを生成する。

サービス提供サーバ２００の送信部２９０は判断部２７０が生成した前記制御コマンドを前記判断部２７０が選択した外部電子機器３００に送信し、また、判断部２７０が生成したカスタマイズ型サービス提案メッセージをユーザ端末１００に送信する機能を行う。

図３は本発明の一実施形態に係る個人カスタマイズ型音声認識サービスの提供方法の実行過程を説明する信号の流れを示すフローチャートである。以下、図１〜図３を参照して、本発明の一実施形態に係る話者識別情報に基づいた個人カスタマイズ型サービスの提供方法を説明する。

まず、サービス提供サーバ２００はスマートＴＶ、サービス提供サーバ２００と連動される照明機器、暖房機器、及びエアコンなどのモノのインターネット（ＩｏＴ）用の機器である外部電子機器３００から登録情報を受信し、受信した外部電子機器３００の登録情報はサービス提供サーバ２００の格納部２３０に格納される（Ｓ４００）。

具体的には、外部電子機器３００の登録情報は外部電子機器３００の機器種類情報（照明機器、映像機器、暖房機器、冷房機器等）と、外部電子機器３００のＩＰアドレス情報を含むことが好ましい。

また、サービス提供サーバ２００はユーザ端末１００から、このユーザ端末１００を使用する複数のユーザの音声登録要求を受信し、音声登録要求に含まれた複数のユーザの個別音声情報はそれぞれのユーザに付与されたユーザ名情報を含むユーザ情報にマッピングされ、次の表１に示すように格納部２３０に格納される（Ｓ４０５）。

具体的には、下記表１におけるユーザ情報（ユーザＩＤ、性別、年齢、好みのコンテンツ情報）はＰＣまたはスマートフォンを通じて個人カスタマイズ型音声認識サービスに加入する手続きで、それぞれのユーザのＰＣやスマートフォンを通じて入力した情報をサービス提供サーバ２００が受信及び格納しておくことによって、備えることができる。

以後、ユーザ端末１００が設置されている空間内にある特定ユーザ（ＵＳＥＲ１）が「Ｏｌｌｅｈ！、退屈だから何か面白いものはない？」のように言う場合、ユーザ端末１００は前述のような話者の音声を受信し（Ｓ４１０）、受信した話者の音声が含まれたサービス提供要求メッセージを生成した後、これをサービス提供サーバ２００に送信する（Ｓ４１５）。

これにより、サービス提供サーバ２００の受信部２１０はユーザ端末１００からサービス提供要求メッセージを受信し、サービス提供サーバ２００の話者識別部２５０は当該サービス提供要求メッセージから話者の音声を抽出する（Ｓ４２０）。

次に、サービス提供サーバ２００の話者識別部２５０は話者の音声を分析して、表１における登録音声データと同じ形式を有する話者の音声データを抽出し、抽出した話者の音声データを表１に示すように格納部２３０に既に登録されている音声データと比較することによって、話者を識別する（Ｓ４２５）。

具体的には、前述したＳ４２５のステップを実施するに当たって、サービス提供サーバ２００の話者識別部２５０は抽出した話者の音声「Ｏｌｌｅｈ！、退屈だから何か面白いものはない？」の中で、「Ｏｌｌｅｈ！」の部分（いわゆる、呼び出し部分）についてはテキスト依存型音声分析及び話者識別を行い、「退屈だから何か面白いものはない？」部分（いわゆる、要求部分）についてはテキスト独立型音声分析及び話者識別を独立して行った後、このように独立して行った二つの識別結果に基づいて最終的に話者を識別することが好ましい。

これにより、サービス提供サーバ２００の話者識別部２５０が当該音声に対する話者を表１における「ＵＳＥＲ１」として識別した場合に、サービス提供サーバ２００の判断部２７０は表１におけるユーザ情報と、「退屈だから何か面白いものはない？」（要求部分）の音声分析結果に基づいて、「ＵＳＥＲ１」のためのカスタマイズ型コンテンツとして「米国ドラマ」を決定することになる（Ｓ４３０）。

一方、サービス提供サーバ２００の判断部２７０が「退屈だから何か面白いものはない？」（要求部分）に対する音声分析及び音声認識を行うことに当たっては、従来技術による様々な音声認識サービスにおける音声分析及び認識技術を使用することができる。

具体的には、Ｓ４３０のステップを実施するに当たって、サービス提供サーバ２００の判断部２７０は「ＵＳＥＲ１」の好みのコンテンツ情報である「米国ドラマ／家族映画／最新歌謡」の中で、「ＵＳＥＲ１」の年齢帯に属する他の女性会員の好みのコンテンツ情報を参考にして、相対的に高い好みのコンテンツである「米国ドラマ」を「ＵＳＥＲ１」のためのカスタマイズ型コンテンツとして「米国ドラマ」を決定することもあり得る。

これにより、サービス提供サーバ２００の判断部２７０は、「はい、ＯｌｌｅｈＴＶで推薦する米国ドラマを視聴しますか？」のようなカスタマイズ型サービス提案メッセージを生成し、サービス提供サーバ２００の送信部２９０は当該メッセージをユーザ端末１００に送信する（Ｓ４３５）。

これにより、ユーザ端末１００はサービス提供サーバ２００からのカスタマイズ型サービス提案メッセージをスピーカモジュールを介してユーザに出力することになる。

一方、本発明を実施するに当たって、ユーザ端末１００を介して出力されたカスタマイズ型サービス提案メッセージを「ＵＳＥＲ１」だけでなく、同じ空間内にある他のユーザも聴取することがあり得る。これに対して、他のユーザは、「Ｏｌｌｅｈ！、私は嫌い、他のものを推薦してくれ」のように言うこともできる。

この場合に、ユーザ端末１００は前述のような他のユーザの音声を受信し（Ｓ４４０）、受信した音声が含まれたサービス提供要求メッセージをサービス提供サーバ２００に送信する（Ｓ４４５）。

これにより、サービス提供サーバ２００の受信部２１０はユーザ端末１００からサービス提供要求メッセージを受信し、サービス提供サーバ２００の話者識別部２５０は当該サービス提供要求メッセージから話者の音声を抽出する（Ｓ４５０）。

以後、サービス提供サーバ２００の識別部は話者の音声を分析して、表１における登録音声データと同じ形式を有する話者の音声データを抽出し、抽出した音声データを表１に示すように格納部２３０に既に登録されている音声データと比較することによって、話者を特定する（Ｓ４５５）。

これにより、サービス提供サーバ２００の識別部が話者を表１における「ＵＳＥＲ２」として識別した場合に、サービス提供サーバ２００の判断部２７０は表１におけるユーザ情報に基づいて、「ＵＳＥＲ１」だけでなく、「ＵＳＥＲ２」も共に考慮してカスタマイズ型コンテンツを再決定する。その結果、「家族映画」を「ＵＳＥＲ１」と「ＵＳＥＲ２」のためのカスタマイズ型コンテンツとして決定することができる（Ｓ４６０）。

具体的には、Ｓ４６０のステップを実施するに当たって、サービス提供サーバ２００の判断部２７０は「ＵＳＥＲ１」の好みのコンテンツ情報である「米国ドラマ／家族映画／最新歌謡」と、「ＵＳＥＲ２」の好みのコンテンツ情報である「家族映画／アクション映画／ヒップホップ音楽」に共通して含まれているコンテンツ情報である「家族映画」をカスタマイズ型コンテンツとして決定することができるようになる。

これにより、サービス提供サーバ２００の判断部２７０は、「はい、それではＯｌｌｅｈＴＶで推薦する家族映画を視聴しますか？」のようなカスタマイズ型サービス提案メッセージを生成するようになり、サービス提供サーバ２００の送信部２９０は当該メッセージをユーザ端末１００に送信する（Ｓ４６５）。

これにより、ユーザ端末１００はサービス提供サーバ２００からのカスタマイズ型サービス提案メッセージをスピーカモジュールを介して出力し、これを聴取したユーザ（ＵＳＥＲ１またはＵＳＥＲ２）が「Ｏｌｌｅｈ！、好き」のように言う場合、ユーザ端末１００は前述のようなユーザの承認音声を受信し（Ｓ４７０）し、承認音声が含まれたカスタマイズ型サービス承認メッセージをサービス提供サーバ２００に送信する。

これにより、サービス提供サーバ２００の判断部２７０はカスタマイズ型コンテンツである「家族映画」の再生または家族映画リストの推薦に必要な制御コマンドを生成し、当該制御コマンドを受信する外部電子機器３００を選択する。

具体的には、サービス提供サーバ２００の判断部２７０は格納部２３０に登録されている外部電子機器３００の中で、「家族映画」の再生または家族映画リストの推薦を行う電子機器（３００）としてスマートＴＶを選択し、サービス提供サーバ２００の送信部２９０は格納部２３０に登録されているスマートＴＶのＩＰアドレスに当該制御コマンドを送信する。

その結果、スマートＴＶはサービス提供サーバ２００から受信した制御コマンドに基づいて、「家族映画」の再生または再生リスト、即ち家族映画リストの推薦を行うことになる。

本発明において使用した用語は単に特定の実施形態を説明するために使われたもので、本発明を限定しようとする意図ではない。単数の表現は文脈上明白に異なるように意味しない限り、複数の表現を含む。本出願において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、段階、動作、構成要素、部分品又は、それらを組み合わせたものが存在することを指定しようとするものであって、一つ又は、それ以上の他の特徴や数字、段階、動作、構成要素、部品又は、それらを組み合わせたものなどの存在又は、付加の可能性を予め排除しないことと理解すべきであろう。

以上では本発明の好ましい実施形態及び応用例について図示及び説明したが、本発明は前述した特定の実施形態及び応用例に限定されず、請求範囲で請求する本発明の要旨を逸脱することなく当該発明が属する技術分野で通常の知識を有する者により多様な変形実施が可能であることは勿論であり、このような変形実施は本発明の技術的思想や展望から個別的に理解されてはならない。

本発明は音声認識サービス産業分野における産業上の利用可能性が認められる。

Claims

（ａ）サービス提供サーバが、ユーザ端末から話者の音声が含まれたサービス提供要求メッセージを受信するステップ；
（ｂ）前記サービス提供サーバが、前記サービス提供要求メッセージに含まれた前記音声を分析して前記音声の話者を識別するステップ；
（ｃ）前記サービス提供サーバが、話者識別情報に基づいて前記話者のためのカスタマイズ型サービスの提供に必要な制御コマンドを生成するステップ；及び
（ｄ）前記サービス提供サーバが、生成された前記制御コマンドを外部電子機器に送信するステップを含む個人カスタマイズ型音声認識サービスを提供する方法。
ユーザ端末から話者の音声が含まれたサービス提供要求メッセージを受信する受信部；
前記サービス提供要求メッセージに含まれた前記音声を分析して前記音声の話者を識別する話者識別部；
前記話者識別部が生成した話者識別情報に基づいて前記話者のためのカスタマイズ型サービスの提供に必要な制御コマンドを生成する判断部；及び
前記制御コマンドを外部電子機器に送信する送信部を含むサービス提供サーバ。