JP6807621B1

JP6807621B1 - 音声に基づいて画像を変更するためのシステム

Info

Publication number: JP6807621B1
Application number: JP2020133416A
Authority: JP
Inventors: 潔関根
Original assignee: Interactive Solutions Inc
Current assignee: Interactive Solutions Inc
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2021-01-06
Anticipated expiration: 2040-08-05
Also published as: WO2022030036A1; US11568877B2; CA3150969A1; CN114467140A; JP2022029864A; US20220335952A1; CA3150969C; US20230154469A1

Abstract

【解決課題】会話に基づいてリアルタイムに共有画像が変更されるシステムを提供する。【解決手段】音声情報を入力するための音声情報入力部３と，音声情報入力部３により入力された音声情報を解析するための音声解析部５と，音声解析部５が解析した音声情報に含まれるコンテンツに関する情報と，コンテンツの変化に関する情報を用いて，コンテンツを表す画像におけるコンテンツの位置を変化させる画像変化部７とを有する，音声に基づいて画像を変更するためのシステム１。【選択図】図１

Description

この発明は，音声に基づいて画像を変更するためのシステムに関する。より詳しく説明すると，この発明は，会話に基づいてリアルタイムに共有画像が変更されるシステムに関する。

一般的なウェブ会議システムは，話者が用意したプレゼンテーション資料を各端末に表示させる。そして，参加者が，その資料に関する発言をしても資料に変化は生じない。

特開２０２０−０８９６４１号公報には，音声に基づいてコマンド操作を行うシステムが記載されている。このように音声を認識し，各種操作を行わせるシステムは公知である。しかしながら，双方向の会話に基づいて，表示される画像をリアルタイムで変更されるシステムは知られていない。

特開２０２０−０８９６４１号公報

この発明は，例えば会話に基づいてリアルタイムに共有画像が変更されるシステムを提供することを目的とする。

この発明は，基本的には，音声情報に含まれるコンテンツに関する情報と，コンテンツの変化に関する情報を用いて，コンテンツを表す画像におけるコンテンツの位置を変化させることで，会話に基づいてリアルタイムに共有画像を変更できるという知見に基づく。

このシステム１は，音声情報入力部３と，音声解析部５と，画像変化部７とを有する。
音声情報入力部３は，音声情報を入力するための要素である。
音声解析部５は，音声情報入力部３により入力された音声情報を解析するための要素である。画像変化部７は，音声解析部５が解析した音声情報に含まれるコンテンツに関する情報と，音声解析部５が解析した音声情報に含まれるコンテンツの変化に関する情報とを用いて，コンテンツを表す画像の位置を変化させるための要素である。

このシステム１の画像変化部７は，位置を変化させたコンテンツの形状及び色のいずれか又は両方を変化させるものであってもよい。

このシステム１の好ましい態様は，第１の参加者の操作情報である第１の操作情報を入力するための第１操作入力部２１と，第２の参加者の操作情報である第２の操作情報を入力するための第２操作入力部２３と，をさらに有するものである。
そして，画像変化部７は，音声解析部５が解析した音声情報に含まれるコンテンツに関する情報，音声解析部が解析したコンテンツの変動に関する情報，第１の操作情報及び第２の操作情報に基づいて画像におけるコンテンツの位置を変化させる。画像変化部７は，位置を変化させたコンテンツの形状及び色のいずれか又は両方を変化させるものであってもよい。

このシステム１は，コンピュータを有するシステムを用いた音声に基づいて画像を変更するための方法を提供する。
この方法は，システム１に，音声情報が入力する音声情報入力工程と，
システム１が，音声情報入力工程により入力された音声情報を解析するための音声解析工程と，
システム１が，音声解析工程において解析された音声情報に含まれるコンテンツに関する情報と，コンテンツの変化に関する情報を用いて，コンテンツを表す画像におけるコンテンツの位置を変化させる画像変化工程とを含む。

この明細書は，コンピュータを上記のシステムとして機能させるためのプログラムや，そのプログラムを格納した情報記録媒体を提供する。

この発明は，例えば会話に基づいてリアルタイムに共有画像を変更できるシステムなどを提供できる。

図１は，音声に基づいて画像を変更するためのシステムを説明するためのブロック図である。図２は，コンピュータの基本構成を示すブロック図である。図３は，本発明のシステム例を示す概念図である。図４は，プレゼンテーション資料の例を示す図である。図５は，画像変化部によりコンテンツを表す画像におけるコンテンツの位置が変化した後の画像を示す概念図である。図６は，画像変化部によりコンテンツを表す画像におけるコンテンツの位置，形状及び色が変化した後の画像を示す概念図である。図７は，操作情報に基づいて，コンテンツを表す画像におけるコンテンツの位置が変化した後の画像を示す概念図である。

以下，図面を用いて本発明を実施するための形態について説明する。本発明は，以下に説明する形態に限定されるものではなく，以下の形態から当業者が自明な範囲で適宜修正したものも含む。

以下，音声に基づいて画像を変更するためのシステム１について説明する。このシステムは，コンピュータに基づくシステムである。
図１は，音声に基づいて画像を変更するためのシステムを説明するためのブロック図である。図１に示される通り，このシステム１は，音声情報入力部３と，音声解析部５と，画像変化部７とを有する。このシステム１は，プレゼンテーション資料などを記憶したプレゼンテーション資料記憶部１１，プレゼンテーション資料を出力するプレゼンテーション出力部１３，各種操作情報が入力される操作情報入力部１５，音声情報を出力する音声出力部１７をさらに有してもよい。

図２は，コンピュータの基本構成を示すブロック図である。この図に示されるように，コンピュータは，入力部３１，出力部３３，制御部３５，演算部３７及び記憶部３９を有しており，各要素は，バス４１などによって接続され，情報の授受を行うことができるようにされている。例えば，記憶部には，制御プログラムが記憶されていてもよいし，各種情報が記憶されていてもよい。入力部から所定の情報が入力された場合，制御部は，記憶部に記憶される制御プログラムを読み出す。そして，制御部は，適宜記憶部に記憶された情報を読み出し，演算部へ伝える。また，制御部は，適宜入力された情報を演算部へ伝える。演算部は，受け取った各種情報を用いて演算処理を行い，記憶部に記憶する。制御部は，記憶部に記憶された演算結果を読み出して，出力部から出力する。このようにして，各種処理が実行される。以下説明する各要素は，コンピュータのいずれかの要素に対応していてもよい。

図３は，本発明のシステム例を示す概念図である。図３に示されるように，本発明のシステム（本発明の装置を含むシステム）は，インターネット又はイントラネット４３と接続された端末４５と，インターネット又はイントラネット４３に接続されたサーバ４７とを含むものであってもよい。もちろん，単体のコンピュータや携帯端末が，本発明の装置として機能してもよいし，複数のサーバが存在してもよい。

音声情報入力部３は，音声情報を入力するための要素（例えばマイク）である。システムは，複数の端末と，複数の端末と接続されたサーバにより構成される場合を例に説明する。この場合において，音声情報入力部３は，例えば，各端末の入力部（例えばマイク）から入力された音声情報を，サーバにおける入力部が入力する。この際のサーバ内の入力部が音声情報入力部３として機能してもよいし，各端末の入力部が音声情報入力部３として機能してもよい。いずれにせよ，サーバ内に，音声情報が入力される。

以下，医薬情報担当者（ＭＲ）と，医療従事者とがそれぞれのコンピュータ端末（端末）を介してウェブ会議による会話をする例に基づいて説明する。ＭＲの端末と医療従事者の端末とは，事前に会議アクセス情報が入力される。会議アクセス情報の例は，会議を特定する情報（ＵＲＬ）や，会議のＩＤと会議のパスワードである。

ＭＲの端末４５ａと医療従事者の端末４５ｂは，会議アクセス情報を用いて，ウェブ会議用のサーバへアクセスする。ＭＲの端末４５ａと医療従事者の端末４５ｂに会議アクセス情報が入力されると，これらの端末は，会議用サーバへアクセスする。サーバは，入力部及び出力部を有しているので，それぞれの画像や音声情報がサーバを介して交換可能となる。この例では，サーバは，プレゼンテーション資料記憶部１１を有している。この例では，ウェブ会議の参加者の各端末が，サーバへアクセスし，サーバに格納された画像データに基づいて，会話を行い，画像データがその会話を反映して更新される。

例えば，ＭＲが入力装置（マウス）を用いて，プレゼンテーション資料記憶部２１から議論の対象となるプレゼンテーション資料を読み出す。読み出したプレゼンテーション資料は，サーバの出力部からＭＲの端末４５ａと医療従事者の端末４５ｂへと出力される。ＭＲの端末４５ａと医療従事者の端末４５ｂは，プレゼンテーション資料が入力される。ＭＲの端末４５ａと医療従事者の端末４５ｂの出力部であるモニタは，プレゼンテーション資料を表示する。なお，ＭＲ又は医療従事者の会話情報がサーバに入力され，会話情報を解析して，解析した会話情報に基づいて，プレゼンテーション資料記憶部１１から議論の対象となるプレゼンテーション資料が読み出されてもよい。この場合，プレゼンテーション資料記憶部１１には，各プレゼンテーション資料と関連して読み出し語が記憶され，解析した会話情報に読み出し語が含まれている場合に，その読み出し語と関連したプレゼンテーション資料が読み出されるようにすればよい。

図４は，プレゼンテーション資料の例を示す図である。図４の例では，「下記降圧薬の効果と安全性について，先生のイメージを教えてください。」という表記がなされている。そして，この図では，縦軸が薬の効果（薬効）であり，横軸が安全性を示すグラフが示されている。

ＭＲの端末４５ａと医療従事者の端末４５ｂを介して，両者は様々な会話をする。例えば，ＭＲが「図に薬剤Ａ〜Ｄの薬効と安全性が示されていますが，先生の感覚はいかがでしょう？」と話をする。すると，ＭＲの端末４５ａのマイクから，ＭＲの端末４５ａに音声情報が入力される。入力された音声情報は，ＭＲの端末４５ａの記憶部に一時的に記憶される。そして，ＭＲの端末４５ａの出力部から音声情報が，サーバ４７へと出力される。サーバ４７が音声情報を受け取り，サーバの入力部から音声情報がサーバ４７に入力され，サーバ４７内の記憶部に記憶される。このようにして，システム１に，音声情報を入力する（音声情報入力工程）。

医療従事者が，例えば「薬剤Ｃは，薬剤Ｂより薬効が高く，もう少し安全性が高いと思いますよ。」と会話したとする。すると，上記と同様にして，システム１に，音声情報が入力される（音声情報入力工程）。

音声解析部５は，音声情報入力部３により入力された音声情報を解析するための要素（例えば公知の音声認識部）である。
例えば，サーバの記憶部は，プレゼンテーション資料に関連して，コンテンツ（例えば，薬剤Ａ，薬剤Ｂ，薬剤Ｃ及び薬剤Ｄ）と，それぞれのコンテンツの画像における位置（薬剤Ａ，薬剤Ｂ，薬剤Ｃ及び薬剤Ｄの座標）を記憶している。そして，音声解析部５は，「薬剤Ｃ」「薬剤Ｂ」というコンテンツに関する情報を解析結果として得る。また音声解析部５は，「薬剤Ｃは，薬剤Ｂより薬効が高く」というコンテンツの変化に関する情報を解析結果として得る。さらに音声解析部５は，「薬剤Ｃは，もう少し安全性が高い」というコンテンツの変化に関する情報を解析結果として得る。
このようにして，システム１が，音声情報入力工程により入力された音声情報を解析し，解析結果を得る（音声解析工程）。得られた解析結果は，適宜サーバの記憶部に記憶される。解析結果は，サーバの出力部から，ＭＲの端末４５ａや医療従事者の端末４５ｂに出力され，これらの端末の記憶部に記憶されてもよい。この処理は以下同様である。

画像変化部７は，音声解析部５が解析した音声情報に含まれるコンテンツに関する情報と，音声解析部５が解析した音声情報に含まれるコンテンツの変化に関する情報とを用いて，コンテンツを表す画像におけるコンテンツの位置を変化させる。例えば，画像変化部７は，コンテンツに関する情報により変化させるコンテンツを特定し，コンテンツの変化に関する情報に基づいてそのコンテンツを変化させる処理を行えばよい。変化した画像は，表示部に表示される。例えば，サーバは，サーバの記憶部から，解析結果である，「薬剤Ｃ」「薬剤Ｂ」というコンテンツに関する情報や，「薬剤Ｃは，薬剤Ｂより薬効が高く」というコンテンツの変化に関する情報，及び「薬剤Ｃは，もう少し安全性が高い」というコンテンツの変化に関する情報を読み出す。そして，読み出した解析結果を用いて，コンテンツの画像における薬剤Ｃの位置を変化させる。そして，コンテンツの位置が変化した画像は，サーバの記憶部に記憶される。そして，ＭＲの端末４５ａと医療従事者の端末４５ｂへ出力されてもよい。すると，ＭＲの端末４５ａと医療従事者の端末４５ｂの出力部（モニタ）に変化後の画像が表示される。画像変化部７は，音声情報について音声を発した者（発言者）を特定し，特定した発言者に応じて変化量を調整するようにしてもよい。発言者の特定は，端末のＩＤや，ウェブ会議の入力の際に行えばよい。また，変化量の調整は，発言者のＩＤと関連して，調整に用いる係数を記憶させておき，発言者のＩＤに応じて読み出せばよい。このようにして発言者の個性に応じた変化を自動的に（発言者に悟られずに）行うことができることとなる。コンテンツの位置を変化させず，コンテンツの形や色を変化させるものは，この明細書に記載された上記とは別の態様である。

図５は，画像変化部によりコンテンツを表す画像におけるコンテンツの位置が変化した後の画像を示す概念図である。このようにして，システム１が，音声解析工程において解析された音声情報に含まれるコンテンツに関する情報と，コンテンツの変化に関する情報に基づいて，コンテンツを表す画像におけるコンテンツの位置を変化させる（画像変化工程）。

図５を見た医師は，医療従事者の端末４５ｂの入力装置（例えばマウスやタッチパネル）を用いて，画像における薬剤Ｃをドラックする。そして，医師が，薬剤Ｃは，「このあたりかなぁ」と発言する。この発言は，先の説明と同様に，システム内に入力される。また，医療従事者の端末４５ｂによる操作情報は，医療従事者の端末４５ｂの出力部からサーバ３７へ出力される。操作情報を受け取ったサーバ３７は，サーバ３７の入力部から操作情報をサーバ３７内へ入力する。そして，サーバ３７は，操作情報に基づいて，コンテンツの画像における薬剤Ｃの位置を変化させる。

図６は，画像変化部によりコンテンツを表す画像におけるコンテンツの位置，形状及び色が変化した後の画像を示す概念図である。図６に示されるように，画像変化部７は，位置を変化させたコンテンツが分かるように，その形状及び色のいずれか又は両方を変化させるものであってもよい。形状を変化させるには，大きさを変化させるものや，消滅させるもの，別のコンテンツ画像とするもの，及び枠の形を変化させるものであってもよい。後述するように，操作情報に基づいてコンテンツの位置を変化させた場合と，音声に基づいてコンテンツの位置を変化させた場合とで，変化後のコンテンツの形状及び色のいずれか又は両方を異ならせるようにしてもよい。

図７は，操作情報に基づいて，コンテンツを表す画像におけるコンテンツの位置が変化した後の画像を示す概念図である。このように，このシステムは，操作情報に基づいて，コンテンツの位置が変化してもよい。そして，コンテンツの位置が変化した画像は，サーバの記憶部に記憶される。そして，ＭＲの端末４５ａと医療従事者の端末４５ｂへ出力されてもよい。すると，ＭＲの端末４５ａと医療従事者の端末４５ｂの出力部（例えばモニタ）に変化後の画像が表示される。このシステム１の好ましい態様は，第１の参加者の操作情報である第１の操作情報を入力するための第１操作入力部２１と，第２の参加者の操作情報である第２の操作情報を入力するための第２操作入力部２３と，をさらに有するものである。上記の例では，例えば，ＭＲの端末４５ａの入力装置が第１操作入力部２１として機能する。また，医療従事者の端末４５ｂの入力装置が第２操作入力部２３として機能する。例えば，ＭＲの端末４５ａは，マウスにより薬剤Ｃを右方向にドラックされたという入力情報を受け取る。受け取った入力情報は，操作情報として，サーバへ送信される。操作情報を受け取ったサーバは，画像変化部７に，操作情報に基づいた画像の変化を行わせる。変化後の画像をサーバの記憶部に記憶する。記憶された画像は，ＭＲの端末４５ａと医療従事者の端末４５ｂへと出力される。すると，ＭＲの端末４５ａと医療従事者の端末４５ｂは，受け取った画像をそれぞれの表示部に表示する。医療従事者の端末４５ｂによる操作情報も同様である。このようにして，画像変化部７は，音声解析部５が解析した音声情報に含まれるコンテンツに関する情報，音声解析部が解析したコンテンツの変動に関する情報，第１の操作情報及び第２の操作情報に基づいて画像におけるコンテンツの位置を変化させる。上記は位置を変化させる操作情報の例であった。操作情報が，コンテンツの形状や色を変化させるものである場合，画像変化部７は，位置を変化させたコンテンツの形状及び色のいずれか又は両方を変化させるものであってもよい。

この明細書は，コンピュータを上記のシステムとして機能させるためのプログラムや，そのプログラムを格納した情報記録媒体を提供する。このプログラムは，コンピュータに実装され，コンピュータを，音声情報を入力するための音声情報入力手段と，音声情報入力手段により入力された音声情報を解析するための音声解析手段と，音声解析手段が解析した音声情報に含まれるコンテンツに関する情報と，コンテンツの変化に関する情報を用いて，コンテンツを表す画像におけるコンテンツの位置を変化させる画像変化手段とを有する，音声に基づいて画像を変更するためのシステムとして機能させる。

この発明は，音声認識システムに用いられるので，情報産業において利用され得る。

１システム
３音声情報入力部
５音声解析部
７画像変化部

Claims

音声情報を入力するための音声情報入力部（３）と，
前記音声情報入力部（３）により入力された音声情報を解析するための音声解析部（５）と，
前記音声解析部（５）が解析した音声情報に含まれるコンテンツに関する情報と，前記コンテンツの変化に関する情報を用いて，前記コンテンツを特定するとともに，前記コンテンツを表す画像における前記コンテンツの位置を変化させる画像変化部（７）とを有し，
前記画像変化部（７）は，前記音声情報を発した者である発言者を特定するとともに，前記発言者に応じて前記コンテンツの位置の変化量を調整する，
音声に基づいて画像を変更するためのシステム（１）。
請求項１に記載のシステムであって，
前記画像変化部（７）は，位置を変化させたコンテンツの形状及び色のいずれか又は両方を変化させるものである，システム。
請求項１に記載のシステムであって，
第１の参加者の操作情報である第１の操作情報を入力するための第１操作入力部（２１）と，第２の参加者の操作情報である第２の操作情報を入力するための第２操作入力部（２３）と，をさらに有し，
前記画像変化部（７）は，
前記音声解析部（５）が解析した音声情報に含まれるコンテンツに関する情報，前記音声解析部が解析した前記コンテンツの変動に関する情報，第１の操作情報及び第２の操作情報に基づいて前記画像における前記コンテンツの位置を変化させるシステム。
コンピュータを有するシステムを用いた音声に基づいて画像を変更するための方法であって，
前記システムに，音声情報が入力する音声情報入力工程と，
前記システムが，前記音声情報入力工程により入力された音声情報を解析するための音声解析工程と，
前記システムが，前記音声解析工程において解析された音声情報に含まれるコンテンツに関する情報と，前記コンテンツの変化に関する情報を用いて，前記コンテンツを特定するとともに，前記コンテンツを表す画像における前記コンテンツの位置を変化させる画像変化工程とを含み，
前記画像変化工程は，前記音声情報を発した者である発言者を特定するとともに，前記発言者に応じて前記コンテンツの位置の変化量を調整する，方法。
コンピュータを，
音声情報を入力するための音声情報入力手段と，
前記音声情報入力手段により入力された音声情報を解析するための音声解析手段と，
前記音声解析手段が解析した音声情報に含まれるコンテンツに関する情報と，前記コンテンツの変化に関する情報を用いて，前記コンテンツを特定するとともに，前記コンテンツを表す画像における前記コンテンツの位置を変化させる画像変化手段とを有し，
前記画像変化手段は，前記音声情報を発した者である発言者を特定するとともに，前記発言者に応じて前記コンテンツの位置の変化量を調整する，
音声に基づいて画像を変更するためのシステムとして機能させるためのプログラム。
請求項５に記載のプログラムを格納した情報記録媒体。