JP7345288B2

JP7345288B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP7345288B2
Application number: JP2019111200A
Authority: JP
Inventors: 雅人小池
Original assignee: Koei Tecmo Games Co Ltd
Current assignee: Koei Tecmo Games Co Ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2023-09-15
Anticipated expiration: 2039-06-14
Also published as: JP2020204661A

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。

従来、コンピュータゲーム等において、例えば、録音された音声を変換し、ユーザ（プレイヤ）とは異なる言語を話す人間や、人間以外のキャラクタが発話したような音声を生成する技術が知られている（例えば、特許文献１を参照）。

特開２０１３－２３１９９９号公報

しかしながら、従来技術では、例えば、変換された音声が言語らしくない、当該音声の意味が全く推測できない等により、ゲーム等のコンテンツの趣向性が低下する場合がある。一側面では、コンテンツの趣向性を高めることができる技術を提供することを目的とする。

一つの案では、情報処理装置は、所定の台詞が発話されて録音された第１音声データにおける子音が発話された第１区間と、母音が発話された第２区間とを判定する判定部と、前記第１音声データに含まれる前記第２区間の音声を、前記第２区間の音声に基づいて変換した第２音声データであって、コンテンツにおいてキャラクタに発話させる前記第２音声データを生成する生成部と、を有し、前記生成部は、前記第２区間の少なくとも一部の音声信号を時間方向に反転させた前記第２音声データであって、前記第２区間のうち、音声の振幅が所定の閾値以上の区間の音声信号を時間方向に反転させた前記第２音声データを生成する。

一側面によれば、コンテンツの趣向性を高めることができる。

実施形態に係る情報処理装置のハードウェア構成例を示す図である。実施形態に係る情報処理装置の機能ブロック図である。実施形態に係る情報処理装置の処理の一例を示すフローチャートである。実施形態に係る第１音声データの波形の一例について説明する図である。実施形態に係る第２音声データの波形の一例について説明する図である。

以下、図面に基づいて本発明の実施形態を説明する。

＜ハードウェア構成＞
図１は、実施形態に係る情報処理装置１０のハードウェア構成例を示す図である。図１に示す情報処理装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、インタフェース装置１０５、表示装置１０６、及び入力装置１０７等を有する。

情報処理装置１０での処理を実現するゲームプログラムは、記録媒体１０１によって提供される。ゲームプログラムを記録した記録媒体１０１がドライブ装置１００にセットされると、ゲームプログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、ゲームプログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたゲームプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、例えば、ＤＲＡＭ（Dynamic Random Access Memory）、またはＳＲＡＭ（Static Random Access Memory）等のメモリであり、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って情報処理装置１０に係る機能を実現する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１０６はプログラムによるＧＵＩ（Graphical User Interface）等を表示する。入力装置１０７は、コントローラ等、キーボード及びマウス等、またはタッチパネル及びボタン等で構成され、様々な操作指示を入力させるために用いられる。

なお、記録媒体１０１の一例としては、ＣＤ－ＲＯＭ、ＤＶＤディスク、ブルーレイディスク、又はＵＳＢメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置１０２の一例としては、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又はフラッシュメモリ等が挙げられる。記録媒体１０１及び補助記憶装置１０２のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。

＜機能構成＞
次に、図２を参照し、情報処理装置１０の機能構成について説明する。図２は、実施形態に係る情報処理装置１０の機能ブロック図である。

情報処理装置１０は、記憶部１１を有する。記憶部１１は、例えば、補助記憶装置１０２等を用いて実現される。記憶部１１は、ゲームにおいて第１キャラクタが発話する台詞が声優等により発話され、発話された音声が録音されている第１音データ等を予め記憶しているものとする。

また、情報処理装置１０は、取得部１２、受付部１３、決定部１４、判定部１５、生成部１６、及び再生部１７を有する。これら各部は、情報処理装置１０にインストールされた１以上のプログラムが、情報処理装置１０のＣＰＵ１０４に実行させる処理により実現される。

取得部１２は、記憶部１１に記憶されている第１音データ等を取得する。受付部１３は、ユーザから各種の操作等による入力を受け付ける。決定部１４は、ゲームの状況に基づいて、第１音声データの変換度（変換の度合い）等を決定する。判定部１５は、第１音声データにおける子音が発話された第１区間と、母音が発話された第２区間とを判定する。
生成部１６は、決定した変換度に応じて、第１音声データに含まれる第２区間の音声を、第２区間の音声に基づいて変換し、第２音声データを生成する。再生部１７は、第２音声データを、ゲーム等のコンテンツにおいて第１キャラクタに発話された音声としてスピーカに出力させる。

＜処理＞
次に、図３から図４Ｂを参照して、情報処理装置１０の処理について説明する。図３は、実施形態に係る情報処理装置１０の処理の一例を示すフローチャートである。図４Ａは、実施形態に係る第１音声データの波形の一例について説明する図である。図４Ｂは、実施形態に係る第２音声データの波形の一例について説明する図である。

以下では、予め録音されている第１音声データが日本語で発話された音声データである例について説明するが、開示の技術を、英語等の日本語以外の言語にも適用することができる。開示の技術は、子音の後に母音が続く日本語や英語等の場合に、より好適である。

ステップＳ１において、取得部１２は、ゲームの状況に基づいて、ゲームにおいて第１キャラクタが発話する台詞が発話されて録音されている第１音声データを取得する。ここで、取得部１２は、記憶部１１に記憶されている音声データのうち、ゲームの状況に応じた第１音声データを取得する。なお、第１音声データは、例えば、プレイヤキャラクタが話す言語以外の言語を話す第１キャラクタの台詞（セリフ）を、声優等が発話し、発話された音声が録音された音声データでもよい。なお、第１キャラクタは、例えば、ゲームにおける異世界人、異星人、妖精、小人、モンスター、動物、地底人、外国人、擬人化された各種のキャラクタ等のキャラクタでもよい。

続いて、決定部１４は、ゲームの状況に基づいて、当該第１音声データの変換度（変換の度合い、変換の割合）を決定する（ステップＳ２）。ここで、決定部１４は、例えば、ゲームにおける所定のアイテムをプレイヤキャラクタが使用した場合、ゲームにおいて所定のステージまたは所定のレベルに到達した場合、及びゲームにおいてプレイヤキャラクタと第１キャラクタとが一緒にいる時間が一定時間に達した等の場合、変換度を低減してもよい。これにより、ゲームの状況に応じて、第１キャラクタが発話した内容の意味を、ユーザがより理解できるようにすることができる。これにより、ゲーム等のコンテンツの趣向性を向上させることができる。

決定部１４は、例えば、当初の変換度を５とし、所定のステージまたは所定のレベルに到達した等により第１段階に到達した場合、変換度を４に低減し、さらに次の第２段階に到達した場合、変換度を３に低減してもよい。

続いて、決定部１４は、決定した変換度に応じて、第１音声データに含まれる第２区間の音声の変換方法を決定する（ステップＳ３）。

決定部１４は、例えば、ゲームの状況に応じた変換度に基づいて、変換対象とする母音を決定してもよい。この場合、決定部１４は、例えば、第２区間で発話された母音がゲームの状況に応じた所定の母音である場合、当該第２区間の音声を変換し、当該第２区間で発話された母音が当該所定の母音でない場合、当該第２区間の音声を変換しないようにしてもよい。この場合、決定部１４は、第１音声データが日本語であれば、例えば、変換度５の場合、「あ」、「い」、「う」、「え」、「お」（音素表記ではそれぞれ/a/, /i/, /u/, /e/, /o/）の５つの母音を変換対象とし、変換度４の場合所定の４つの母音のみを変換対象とし、変換度３の場合所定の３つの母音のみを変換対象としてもよい。

また、決定部１４は、ゲームの状況に応じた変換度に基づいて、五十音のうち変換対象とする音を決定してもよい。この場合、決定部１４は、第２区間の直前の第１区間で発話された子音がゲームの状況に応じた所定の子音である場合、当該第２区間の音声を変換し、当該第１区間で発話された子音が当該所定の子音でない場合、当該第２区間の音声を変換しないようにしてもよい。この場合、決定部１４は、第１音声データが日本語であれば、例えば、変換度５の場合、五十音の全ての母音部分を変換対象とし、変換度４の場合、五十音のうちカ行である「か」、「き」、「く」、「け」、「こ」（音素表記ではそれぞれ/ka/, /ki/, /ku/, /ke/, /ko/）以外の音の母音部分のみを変換対象とし、変換度３の場合、五十音のうちカ行とサ行の音以外の母音部分のみを変換対象としてもよい。

また、決定部１４は、ゲームの状況に応じた変換度に基づいて、第２区間の音声を変換する頻度を決定してもよい。この場合、決定部１４は、例えば、変換度５の場合、第１音声データに含まれる複数の第２区間を全て変換対象とし、変換度４の場合、各第２区間を第１頻度（例えば、８０％の確率）で変換対象とし、変換度４の場合、各第２区間を第２頻度（例えば、６０％の確率）で変換対象としてもよい。

続いて、判定部１５は、第１音声データにおける子音が発話された第１区間と、母音が発話された第２区間とを判定する（ステップＳ４）。ここで、判定部１５は、例えば、第１音声データの振幅の絶対値の平均値が所定の閾値以上の区間を検出し、当該区間のうち、所定時間内で第１音声データの振幅の符号が入れ替わった回数（ゼロクロス回数）が閾値以上である区間を、子音が発話された第１区間と判定してもよい。そして、判定部１５は、例えば、第１音声データの振幅の絶対値の平均値が所定の閾値以上の区間のうち、第１区間以外の区間を、母音が発話された第２区間と判定してもよい。

また、判定部１５は、例えば、ディープラーニング等の機械学習を用いて第１音声データを音声認識し、第１音声データに含まれる第１区間及び第２区間を検出してもよい。

続いて、生成部１６は、第１音声データに含まれる第２区間の音声を、決定された変換方法で、第２区間の音声に基づいて変換し、第２音声データを生成する（ステップＳ５）。ここで、生成部１６は、例えば、第１音声データに含まれる複数の第２区間のうち、ステップＳ３の処理で決定部１４により変換対象として決定された第２区間の音声を変換する。

図４Ａには、実施形態に係る第１音声データの波形の一例が示されている。図４Ａの第１区間４０１と第２区間４０２、第１区間４０３と第２区間４０４、及び第１区間４０５と第２区間４０６は、それぞれ、声優等により、五十音中の「あいうえお」以外であり、子音と母音からなる一の音（例えば、「か」/ka/等）が発話された区間である。

第１区間４０１、第１区間４０３、及び第１区間４０５は各子音が発話された区間であり、第２区間４０２、第２区間４０４、及び第２区間４０６は当該各子音に続く各母音が発話された区間である。

≪変換処理≫
以下では、第２区間の音声を変換する方法の例について説明する。

（時間反転）
生成部１６は、変換対象の第２区間の少なくとも一部（全部または一部）の音声信号を時間方向に反転（時間反転、逆再生、時間が進む方向を逆にして再生）させた第２音声データを生成してもよい。この場合、生成部１６は、変換対象の第２区間のうち、音声の振幅が所定の閾値以上の区間の音声信号を時間方向に反転させた第２音声データを生成してもよい。

この場合、生成部１６は、図４Ａに示すように、変換対象の第２区間４０２のうち、第２区間４０２における音声の振幅が所定の閾値４１１以上となった時点４２１から、当該所定の閾値４１１未満の状態が継続するよりも前の時点４２２までの区間４０２Ａを判定する。また、生成部１６は、同様に、変換対象の第２区間４０４のうち区間４０４Ａ、変換対象の第２区間４０６のうち区間４０６Ａを判定する。

そして、生成部１６は、図４Ｂに示すように、区間４０２Ａ、区間４０４Ａ、及び区間４０６Ａの各音声を時間方向に反転させることにより、第２音声データを生成してもよい。これにより、例えば、/ka/という音の場合、/k/は概ねそのまま聞こえ、/a/は時間反転して聞こえるようにすることができる。

（位相反転）
生成部１６は、変換対象の第２区間の少なくとも一部の音声信号をフーリエ変換等により周波数解析し、所定の各周波数に対する振幅を位相方向に反転させた第２音声データを生成してもよい。この場合、生成部１６は、変換対象の第２区間のうち、音声の振幅が所定の閾値以上の区間の音声信号を時間方向に反転させた第２音声データを生成してもよい。

上述したように、子音の区間の音は変換せず、母音の区間の音を当該音に基づいて変換することにより、例えば、第１キャラクタが話している言葉をユーザは分からないはずであるものの、何故か何となく推察できなくもない、ユーザに対し不思議な感覚を起こさせる音声を生成することができる。これにより、ゲーム等のコンテンツの趣向性を向上させることができる。

続いて、再生部１７は、生成された第２音声データを、ゲーム等のコンテンツにおいて第１キャラクタに発話された音声として再生させる（ステップＳ６）。ここで、例えば、第１キャラクタが発話しているＣＧ映像を画面に表示させるとともに、第２音声データをスピーカから出力させる。

＜変形例＞
情報処理装置１０の各機能部は、例えば１以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。また、第２音データと、再生部１７の機能を実現するプログラムを記録媒体に記録し、ゲーム装置等において、再生部１７の処理を実行させてもよい。

また、オンラインゲーム等を提供するサーバ装置に再生部１７の処理を実行させ、ユーザのスマートフォン、タブレット、及びパーソナルコンピュータ等の情報処理端末に、所定のＢＧＭ等が繰り返し再生される音をスピーカから出力させるようにしてもよい。

以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０情報処理装置
１１記憶部
１２取得部
１３受付部
１４決定部
１５判定部
１６生成部
１７再生部

Claims

所定の台詞が発話されて録音された第１音声データにおける子音が発話された第１区間と、母音が発話された第２区間とを判定する判定部と、
前記第１音声データに含まれる前記第２区間の音声を、前記第２区間の音声に基づいて変換した第２音声データであって、コンテンツにおいてキャラクタに発話させる前記第２音声データを生成する生成部と、
を有し、
前記生成部は、
前記第２区間の少なくとも一部の音声信号を時間方向に反転させた前記第２音声データであって、前記第２区間のうち、音声の振幅が所定の閾値以上の区間の音声信号を時間方向に反転させた前記第２音声データを生成する、情報処理装置。
所定の台詞が発話されて録音された第１音声データにおける子音が発話された第１区間と、母音が発話された第２区間とを判定する判定部と、
前記第１音声データに含まれる前記第２区間の音声を、前記第２区間の音声に基づいて変換した第２音声データであって、コンテンツにおいてキャラクタに発話させる前記第２音声データを生成する生成部と、
を有し、
前記生成部は、
ゲームの状況に基づいて、前記第２区間の音声の変換度を決定し、
前記第２区間で発話された母音が前記ゲームの状況に応じた所定の母音である場合、前記第２区間の音声を変換し、
前記第２区間で発話された母音が前記所定の母音でない場合、前記第２区間の音声を変換しない、情報処理装置。
所定の台詞が発話されて録音された第１音声データにおける子音が発話された第１区間と、母音が発話された第２区間とを判定する判定部と、
前記第１音声データに含まれる前記第２区間の音声を、前記第２区間の音声に基づいて変換した第２音声データであって、コンテンツにおいてキャラクタに発話させる前記第２音声データを生成する生成部と、
を有し、
前記生成部は、
ゲームの状況に基づいて、前記第２区間の音声の変換度を決定し、
前記第２区間の直前の前記第１区間で発話された子音が前記ゲームの状況に応じた所定の子音である場合、前記第２区間の音声を変換し、
前記第２区間の直前の前記第１区間で発話された子音が前記所定の子音でない場合、前記第２区間の音声を変換しない、情報処理装置。
所定の台詞が発話されて録音された第１音声データにおける子音が発話された第１区間と、母音が発話された第２区間とを判定する判定部と、
前記第１音声データに含まれる前記第２区間の音声を、前記第２区間の音声に基づいて変換した第２音声データであって、コンテンツにおいてキャラクタに発話させる前記第２音声データを生成する生成部と、
を有し、
前記生成部は、
ゲームの状況に基づいて、前記第２区間の音声の変換度を決定し、
前記ゲームの状況に応じて、前記第２区間の音声を変換する頻度を決定する、情報処理装置。
前記生成部は、
ゲームの状況に基づいて、前記第２区間の音声の変換度を決定する、
請求項１に記載の情報処理装置。
情報処理装置が、
所定の台詞が発話されて録音された第１音声データにおける子音が発話された第１区間と、母音が発話された第２区間とを判定する処理と、
前記第１音声データに含まれる前記第２区間の音声を、前記第２区間の音声に基づいて変換した第２音声データであって、コンテンツにおいてキャラクタに発話させる前記第２音声データを生成する処理と、
を実行し、
前記第２音声データを生成する処理は、
前記第２区間の少なくとも一部の音声信号を時間方向に反転させた前記第２音声データであって、前記第２区間のうち、音声の振幅が所定の閾値以上の区間の音声信号を時間方向に反転させた前記第２音声データを生成する、情報処理方法。
情報処理装置に、
所定の台詞が発話されて録音された第１音声データにおける子音が発話された第１区間と、母音が発話された第２区間とを判定する処理と、
前記第１音声データに含まれる前記第２区間の音声を、前記第２区間の音声に基づいて変換した第２音声データであって、コンテンツにおいてキャラクタに発話させる前記第２音声データを生成する処理と、
を実行させ、
前記第２音声データを生成する処理は、
前記第２区間の少なくとも一部の音声信号を時間方向に反転させた前記第２音声データであって、前記第２区間のうち、音声の振幅が所定の閾値以上の区間の音声信号を時間方向に反転させた前記第２音声データを生成する、プログラム。