JP6807621B1 - 音声に基づいて画像を変更するためのシステム - Google Patents

音声に基づいて画像を変更するためのシステム Download PDF

Info

Publication number
JP6807621B1
JP6807621B1 JP2020133416A JP2020133416A JP6807621B1 JP 6807621 B1 JP6807621 B1 JP 6807621B1 JP 2020133416 A JP2020133416 A JP 2020133416A JP 2020133416 A JP2020133416 A JP 2020133416A JP 6807621 B1 JP6807621 B1 JP 6807621B1
Authority
JP
Japan
Prior art keywords
information
content
voice
image
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020133416A
Other languages
English (en)
Other versions
JP2022029864A (ja
Inventor
潔 関根
潔 関根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Interactive Solutions Inc
Original Assignee
Interactive Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Interactive Solutions Inc filed Critical Interactive Solutions Inc
Priority to JP2020133416A priority Critical patent/JP6807621B1/ja
Priority to JP2020199772A priority patent/JP7168239B2/ja
Application granted granted Critical
Publication of JP6807621B1 publication Critical patent/JP6807621B1/ja
Priority to PCT/JP2021/005251 priority patent/WO2022030036A1/ja
Priority to US17/765,833 priority patent/US11568877B2/en
Priority to CA3150969A priority patent/CA3150969C/en
Priority to CN202180005627.4A priority patent/CN114467140A/zh
Publication of JP2022029864A publication Critical patent/JP2022029864A/ja
Priority to JP2022041835A priority patent/JP7488591B2/ja
Priority to US18/090,503 priority patent/US20230154469A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【解決課題】 会話に基づいてリアルタイムに共有画像が変更されるシステムを提供する。【解決手段】 音声情報を入力するための音声情報入力部3と,音声情報入力部3により入力された音声情報を解析するための音声解析部5と,音声解析部5が解析した音声情報に含まれるコンテンツに関する情報と,コンテンツの変化に関する情報を用いて,コンテンツを表す画像におけるコンテンツの位置を変化させる画像変化部7とを有する,音声に基づいて画像を変更するためのシステム1。【選択図】図1

Description

この発明は,音声に基づいて画像を変更するためのシステムに関する。より詳しく説明すると,この発明は,会話に基づいてリアルタイムに共有画像が変更されるシステムに関する。
一般的なウェブ会議システムは,話者が用意したプレゼンテーション資料を各端末に表示させる。そして,参加者が,その資料に関する発言をしても資料に変化は生じない。
特開2020−089641号公報には,音声に基づいてコマンド操作を行うシステムが記載されている。このように音声を認識し,各種操作を行わせるシステムは公知である。しかしながら,双方向の会話に基づいて,表示される画像をリアルタイムで変更されるシステムは知られていない。
特開2020−089641号公報
この発明は,例えば会話に基づいてリアルタイムに共有画像が変更されるシステムを提供することを目的とする。
この発明は,基本的には,音声情報に含まれるコンテンツに関する情報と,コンテンツの変化に関する情報を用いて,コンテンツを表す画像におけるコンテンツの位置を変化させることで,会話に基づいてリアルタイムに共有画像を変更できるという知見に基づく。
このシステム1は,音声情報入力部3と,音声解析部5と,画像変化部7とを有する。
音声情報入力部3は,音声情報を入力するための要素である。
音声解析部5は,音声情報入力部3により入力された音声情報を解析するための要素である。画像変化部7は,音声解析部5が解析した音声情報に含まれるコンテンツに関する情報と,音声解析部5が解析した音声情報に含まれるコンテンツの変化に関する情報とを用いて,コンテンツを表す画像の位置を変化させるための要素である。
このシステム1の画像変化部7は,位置を変化させたコンテンツの形状及び色のいずれか又は両方を変化させるものであってもよい。
このシステム1の好ましい態様は,第1の参加者の操作情報である第1の操作情報を入力するための第1操作入力部21と,第2の参加者の操作情報である第2の操作情報を入力するための第2操作入力部23と,をさらに有するものである。
そして,画像変化部7は,音声解析部5が解析した音声情報に含まれるコンテンツに関する情報,音声解析部が解析したコンテンツの変動に関する情報,第1の操作情報及び第2の操作情報に基づいて画像におけるコンテンツの位置を変化させる。画像変化部7は,位置を変化させたコンテンツの形状及び色のいずれか又は両方を変化させるものであってもよい。
このシステム1は,コンピュータを有するシステムを用いた音声に基づいて画像を変更するための方法を提供する。
この方法は,システム1に,音声情報が入力する音声情報入力工程と,
システム1が,音声情報入力工程により入力された音声情報を解析するための音声解析工程と,
システム1が,音声解析工程において解析された音声情報に含まれるコンテンツに関する情報と,コンテンツの変化に関する情報を用いて,コンテンツを表す画像におけるコンテンツの位置を変化させる画像変化工程とを含む。
この明細書は,コンピュータを上記のシステムとして機能させるためのプログラムや,そのプログラムを格納した情報記録媒体を提供する。
この発明は,例えば会話に基づいてリアルタイムに共有画像を変更できるシステムなどを提供できる。
図1は,音声に基づいて画像を変更するためのシステムを説明するためのブロック図である。 図2は,コンピュータの基本構成を示すブロック図である。 図3は,本発明のシステム例を示す概念図である。 図4は,プレゼンテーション資料の例を示す図である。 図5は,画像変化部によりコンテンツを表す画像におけるコンテンツの位置が変化した後の画像を示す概念図である。 図6は,画像変化部によりコンテンツを表す画像におけるコンテンツの位置,形状及び色が変化した後の画像を示す概念図である。 図7は,操作情報に基づいて,コンテンツを表す画像におけるコンテンツの位置が変化した後の画像を示す概念図である。
以下,図面を用いて本発明を実施するための形態について説明する。本発明は,以下に説明する形態に限定されるものではなく,以下の形態から当業者が自明な範囲で適宜修正したものも含む。
以下,音声に基づいて画像を変更するためのシステム1について説明する。このシステムは,コンピュータに基づくシステムである。
図1は,音声に基づいて画像を変更するためのシステムを説明するためのブロック図である。図1に示される通り,このシステム1は,音声情報入力部3と,音声解析部5と,画像変化部7とを有する。このシステム1は,プレゼンテーション資料などを記憶したプレゼンテーション資料記憶部11,プレゼンテーション資料を出力するプレゼンテーション出力部13,各種操作情報が入力される操作情報入力部15,音声情報を出力する音声出力部17をさらに有してもよい。
図2は,コンピュータの基本構成を示すブロック図である。この図に示されるように,コンピュータは,入力部31,出力部33,制御部35,演算部37及び記憶部39を有しており,各要素は,バス41などによって接続され,情報の授受を行うことができるようにされている。例えば,記憶部には,制御プログラムが記憶されていてもよいし,各種情報が記憶されていてもよい。入力部から所定の情報が入力された場合,制御部は,記憶部に記憶される制御プログラムを読み出す。そして,制御部は,適宜記憶部に記憶された情報を読み出し,演算部へ伝える。また,制御部は,適宜入力された情報を演算部へ伝える。演算部は,受け取った各種情報を用いて演算処理を行い,記憶部に記憶する。制御部は,記憶部に記憶された演算結果を読み出して,出力部から出力する。このようにして,各種処理が実行される。以下説明する各要素は,コンピュータのいずれかの要素に対応していてもよい。
図3は,本発明のシステム例を示す概念図である。図3に示されるように,本発明のシステム(本発明の装置を含むシステム)は,インターネット又はイントラネット43と接続された端末45と,インターネット又はイントラネット43に接続されたサーバ47とを含むものであってもよい。もちろん,単体のコンピュータや携帯端末が,本発明の装置として機能してもよいし,複数のサーバが存在してもよい。
音声情報入力部3は,音声情報を入力するための要素(例えばマイク)である。システムは,複数の端末と,複数の端末と接続されたサーバにより構成される場合を例に説明する。この場合において,音声情報入力部3は,例えば,各端末の入力部(例えばマイク)から入力された音声情報を,サーバにおける入力部が入力する。この際のサーバ内の入力部が音声情報入力部3として機能してもよいし,各端末の入力部が音声情報入力部3として機能してもよい。いずれにせよ,サーバ内に,音声情報が入力される。
以下,医薬情報担当者(MR)と,医療従事者とがそれぞれのコンピュータ端末(端末)を介してウェブ会議による会話をする例に基づいて説明する。MRの端末と医療従事者の端末とは,事前に会議アクセス情報が入力される。会議アクセス情報の例は,会議を特定する情報(URL)や,会議のIDと会議のパスワードである。
MRの端末45aと医療従事者の端末45bは,会議アクセス情報を用いて,ウェブ会議用のサーバへアクセスする。MRの端末45aと医療従事者の端末45bに会議アクセス情報が入力されると,これらの端末は,会議用サーバへアクセスする。サーバは,入力部及び出力部を有しているので,それぞれの画像や音声情報がサーバを介して交換可能となる。この例では,サーバは,プレゼンテーション資料記憶部11を有している。この例では,ウェブ会議の参加者の各端末が,サーバへアクセスし,サーバに格納された画像データに基づいて,会話を行い,画像データがその会話を反映して更新される。
例えば,MRが入力装置(マウス)を用いて,プレゼンテーション資料記憶部21から議論の対象となるプレゼンテーション資料を読み出す。読み出したプレゼンテーション資料は,サーバの出力部からMRの端末45aと医療従事者の端末45bへと出力される。MRの端末45aと医療従事者の端末45bは,プレゼンテーション資料が入力される。MRの端末45aと医療従事者の端末45bの出力部であるモニタは,プレゼンテーション資料を表示する。なお,MR又は医療従事者の会話情報がサーバに入力され,会話情報を解析して,解析した会話情報に基づいて,プレゼンテーション資料記憶部11から議論の対象となるプレゼンテーション資料が読み出されてもよい。この場合,プレゼンテーション資料記憶部11には,各プレゼンテーション資料と関連して読み出し語が記憶され,解析した会話情報に読み出し語が含まれている場合に,その読み出し語と関連したプレゼンテーション資料が読み出されるようにすればよい。
図4は,プレゼンテーション資料の例を示す図である。図4の例では,「下記降圧薬の効果と安全性について,先生のイメージを教えてください。」という表記がなされている。そして,この図では,縦軸が薬の効果(薬効)であり,横軸が安全性を示すグラフが示されている。
MRの端末45aと医療従事者の端末45bを介して,両者は様々な会話をする。例えば,MRが「図に薬剤A〜Dの薬効と安全性が示されていますが,先生の感覚はいかがでしょう?」と話をする。すると,MRの端末45aのマイクから,MRの端末45aに音声情報が入力される。入力された音声情報は,MRの端末45aの記憶部に一時的に記憶される。そして,MRの端末45aの出力部から音声情報が,サーバ47へと出力される。サーバ47が音声情報を受け取り,サーバの入力部から音声情報がサーバ47に入力され,サーバ47内の記憶部に記憶される。このようにして,システム1に,音声情報を入力する(音声情報入力工程)。
医療従事者が,例えば「薬剤Cは,薬剤Bより薬効が高く,もう少し安全性が高いと思いますよ。」と会話したとする。すると,上記と同様にして,システム1に,音声情報が入力される(音声情報入力工程)。
音声解析部5は,音声情報入力部3により入力された音声情報を解析するための要素(例えば公知の音声認識部)である。
例えば,サーバの記憶部は,プレゼンテーション資料に関連して,コンテンツ(例えば,薬剤A,薬剤B,薬剤C及び薬剤D)と,それぞれのコンテンツの画像における位置(薬剤A,薬剤B,薬剤C及び薬剤Dの座標)を記憶している。そして,音声解析部5は,「薬剤C」「薬剤B」というコンテンツに関する情報を解析結果として得る。また音声解析部5は,「薬剤Cは,薬剤Bより薬効が高く」というコンテンツの変化に関する情報を解析結果として得る。さらに音声解析部5は,「薬剤Cは,もう少し安全性が高い」というコンテンツの変化に関する情報を解析結果として得る。
このようにして,システム1が,音声情報入力工程により入力された音声情報を解析し,解析結果を得る(音声解析工程)。得られた解析結果は,適宜サーバの記憶部に記憶される。解析結果は,サーバの出力部から,MRの端末45aや医療従事者の端末45bに出力され,これらの端末の記憶部に記憶されてもよい。この処理は以下同様である。
画像変化部7は,音声解析部5が解析した音声情報に含まれるコンテンツに関する情報と,音声解析部5が解析した音声情報に含まれるコンテンツの変化に関する情報とを用いて,コンテンツを表す画像におけるコンテンツの位置を変化させる。例えば,画像変化部7は,コンテンツに関する情報により変化させるコンテンツを特定し,コンテンツの変化に関する情報に基づいてそのコンテンツを変化させる処理を行えばよい。変化した画像は,表示部に表示される。例えば,サーバは,サーバの記憶部から,解析結果である,「薬剤C」「薬剤B」というコンテンツに関する情報や,「薬剤Cは,薬剤Bより薬効が高く」というコンテンツの変化に関する情報,及び「薬剤Cは,もう少し安全性が高い」というコンテンツの変化に関する情報を読み出す。そして,読み出した解析結果を用いて,コンテンツの画像における薬剤Cの位置を変化させる。そして,コンテンツの位置が変化した画像は,サーバの記憶部に記憶される。そして,MRの端末45aと医療従事者の端末45bへ出力されてもよい。すると,MRの端末45aと医療従事者の端末45bの出力部(モニタ)に変化後の画像が表示される。画像変化部7は,音声情報について音声を発した者(発言者)を特定し,特定した発言者に応じて変化量を調整するようにしてもよい。発言者の特定は,端末のIDや,ウェブ会議の入力の際に行えばよい。また,変化量の調整は,発言者のIDと関連して,調整に用いる係数を記憶させておき,発言者のIDに応じて読み出せばよい。このようにして発言者の個性に応じた変化を自動的に(発言者に悟られずに)行うことができることとなる。コンテンツの位置を変化させず,コンテンツの形や色を変化させるものは,この明細書に記載された上記とは別の態様である。
図5は,画像変化部によりコンテンツを表す画像におけるコンテンツの位置が変化した後の画像を示す概念図である。このようにして,システム1が,音声解析工程において解析された音声情報に含まれるコンテンツに関する情報と,コンテンツの変化に関する情報に基づいて,コンテンツを表す画像におけるコンテンツの位置を変化させる(画像変化工程)。
図5を見た医師は,医療従事者の端末45bの入力装置(例えばマウスやタッチパネル)を用いて,画像における薬剤Cをドラックする。そして,医師が,薬剤Cは,「このあたりかなぁ」と発言する。この発言は,先の説明と同様に,システム内に入力される。また,医療従事者の端末45bによる操作情報は,医療従事者の端末45bの出力部からサーバ37へ出力される。操作情報を受け取ったサーバ37は,サーバ37の入力部から操作情報をサーバ37内へ入力する。そして,サーバ37は,操作情報に基づいて,コンテンツの画像における薬剤Cの位置を変化させる。
図6は,画像変化部によりコンテンツを表す画像におけるコンテンツの位置,形状及び色が変化した後の画像を示す概念図である。図6に示されるように,画像変化部7は,位置を変化させたコンテンツが分かるように,その形状及び色のいずれか又は両方を変化させるものであってもよい。形状を変化させるには,大きさを変化させるものや,消滅させるもの,別のコンテンツ画像とするもの,及び枠の形を変化させるものであってもよい。後述するように,操作情報に基づいてコンテンツの位置を変化させた場合と,音声に基づいてコンテンツの位置を変化させた場合とで,変化後のコンテンツの形状及び色のいずれか又は両方を異ならせるようにしてもよい。
図7は,操作情報に基づいて,コンテンツを表す画像におけるコンテンツの位置が変化した後の画像を示す概念図である。このように,このシステムは,操作情報に基づいて,コンテンツの位置が変化してもよい。そして,コンテンツの位置が変化した画像は,サーバの記憶部に記憶される。そして,MRの端末45aと医療従事者の端末45bへ出力されてもよい。すると,MRの端末45aと医療従事者の端末45bの出力部(例えばモニタ)に変化後の画像が表示される。このシステム1の好ましい態様は,第1の参加者の操作情報である第1の操作情報を入力するための第1操作入力部21と,第2の参加者の操作情報である第2の操作情報を入力するための第2操作入力部23と,をさらに有するものである。上記の例では,例えば,MRの端末45aの入力装置が第1操作入力部21として機能する。また,医療従事者の端末45bの入力装置が第2操作入力部23として機能する。例えば,MRの端末45aは,マウスにより薬剤Cを右方向にドラックされたという入力情報を受け取る。受け取った入力情報は,操作情報として,サーバへ送信される。操作情報を受け取ったサーバは,画像変化部7に,操作情報に基づいた画像の変化を行わせる。変化後の画像をサーバの記憶部に記憶する。記憶された画像は,MRの端末45aと医療従事者の端末45bへと出力される。すると,MRの端末45aと医療従事者の端末45bは,受け取った画像をそれぞれの表示部に表示する。医療従事者の端末45bによる操作情報も同様である。このようにして,画像変化部7は,音声解析部5が解析した音声情報に含まれるコンテンツに関する情報,音声解析部が解析したコンテンツの変動に関する情報,第1の操作情報及び第2の操作情報に基づいて画像におけるコンテンツの位置を変化させる。上記は位置を変化させる操作情報の例であった。操作情報が,コンテンツの形状や色を変化させるものである場合,画像変化部7は,位置を変化させたコンテンツの形状及び色のいずれか又は両方を変化させるものであってもよい。
この明細書は,コンピュータを上記のシステムとして機能させるためのプログラムや,そのプログラムを格納した情報記録媒体を提供する。このプログラムは,コンピュータに実装され,コンピュータを,音声情報を入力するための音声情報入力手段と,音声情報入力手段により入力された音声情報を解析するための音声解析手段と,音声解析手段が解析した音声情報に含まれるコンテンツに関する情報と,コンテンツの変化に関する情報を用いて,コンテンツを表す画像におけるコンテンツの位置を変化させる画像変化手段とを有する,音声に基づいて画像を変更するためのシステムとして機能させる。
この発明は,音声認識システムに用いられるので,情報産業において利用され得る。
1 システム
3 音声情報入力部
5 音声解析部
7 画像変化部

Claims (6)

  1. 音声情報を入力するための音声情報入力部(3)と,
    前記音声情報入力部(3)により入力された音声情報を解析するための音声解析部(5)と,
    前記音声解析部(5)が解析した音声情報に含まれるコンテンツに関する情報と,前記コンテンツの変化に関する情報を用いて,前記コンテンツを特定するとともに,前記コンテンツを表す画像における前記コンテンツの位置を変化させる画像変化部(7)とを有し,
    前記画像変化部(7)は,前記音声情報を発した者である発言者を特定するとともに,前記発言者に応じて前記コンテンツの位置の変化量を調整する
    音声に基づいて画像を変更するためのシステム(1)。
  2. 請求項1に記載のシステムであって,
    前記画像変化部(7)は,位置を変化させたコンテンツの形状及び色のいずれか又は両方を変化させるものである,システム。
  3. 請求項1に記載のシステムであって,
    第1の参加者の操作情報である第1の操作情報を入力するための第1操作入力部(21)と,第2の参加者の操作情報である第2の操作情報を入力するための第2操作入力部(23)と,をさらに有し,
    前記画像変化部(7)は,
    前記音声解析部(5)が解析した音声情報に含まれるコンテンツに関する情報,前記音声解析部が解析した前記コンテンツの変動に関する情報,第1の操作情報及び第2の操作情報に基づいて前記画像における前記コンテンツの位置を変化させるシステム。
  4. コンピュータを有するシステムを用いた音声に基づいて画像を変更するための方法であって,
    前記システムに,音声情報が入力する音声情報入力工程と,
    前記システムが,前記音声情報入力工程により入力された音声情報を解析するための音声解析工程と,
    前記システムが,前記音声解析工程において解析された音声情報に含まれるコンテンツに関する情報と,前記コンテンツの変化に関する情報を用いて,前記コンテンツを特定するとともに,前記コンテンツを表す画像における前記コンテンツの位置を変化させる画像変化工程とを含み,
    前記画像変化工程は,前記音声情報を発した者である発言者を特定するとともに,前記発言者に応じて前記コンテンツの位置の変化量を調整する,方法。
  5. コンピュータを,
    音声情報を入力するための音声情報入力手段と,
    前記音声情報入力手段により入力された音声情報を解析するための音声解析手段と,
    前記音声解析手段が解析した音声情報に含まれるコンテンツに関する情報と,前記コンテンツの変化に関する情報を用いて,前記コンテンツを特定するとともに,前記コンテンツを表す画像における前記コンテンツの位置を変化させる画像変化手段とを有し,
    前記画像変化手段は,前記音声情報を発した者である発言者を特定するとともに,前記発言者に応じて前記コンテンツの位置の変化量を調整する,
    音声に基づいて画像を変更するためのシステムとして機能させるためのプログラム。
  6. 請求項5に記載のプログラムを格納した情報記録媒体。
JP2020133416A 2020-08-05 2020-08-05 音声に基づいて画像を変更するためのシステム Active JP6807621B1 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP2020133416A JP6807621B1 (ja) 2020-08-05 2020-08-05 音声に基づいて画像を変更するためのシステム
JP2020199772A JP7168239B2 (ja) 2020-08-05 2020-12-01 音声に基づいて画像を変更するためのシステム
CN202180005627.4A CN114467140A (zh) 2020-08-05 2021-02-12 基于语音来改变图像的系统
US17/765,833 US11568877B2 (en) 2020-08-05 2021-02-12 System to change image based on voice
PCT/JP2021/005251 WO2022030036A1 (ja) 2020-08-05 2021-02-12 音声に基づいて画像を変更するためのシステム
CA3150969A CA3150969C (en) 2020-08-05 2021-02-12 System to change image based on voice
JP2022041835A JP7488591B2 (ja) 2020-08-05 2022-03-16 音声に基づいて画像を変更するためのシステム
US18/090,503 US20230154469A1 (en) 2020-08-05 2022-12-29 System to Change Image Based on Voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020133416A JP6807621B1 (ja) 2020-08-05 2020-08-05 音声に基づいて画像を変更するためのシステム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020199772A Division JP7168239B2 (ja) 2020-08-05 2020-12-01 音声に基づいて画像を変更するためのシステム

Publications (2)

Publication Number Publication Date
JP6807621B1 true JP6807621B1 (ja) 2021-01-06
JP2022029864A JP2022029864A (ja) 2022-02-18

Family

ID=73992927

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020133416A Active JP6807621B1 (ja) 2020-08-05 2020-08-05 音声に基づいて画像を変更するためのシステム

Country Status (5)

Country Link
US (2) US11568877B2 (ja)
JP (1) JP6807621B1 (ja)
CN (1) CN114467140A (ja)
CA (1) CA3150969C (ja)
WO (1) WO2022030036A1 (ja)

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3267047B2 (ja) * 1994-04-25 2002-03-18 株式会社日立製作所 音声による情報処理装置
JP2002041276A (ja) 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
JP2002116996A (ja) * 2000-10-05 2002-04-19 Hokkaido Technology Licence Office Co Ltd 協調作業支援方法およびシステム、並びに協調作業用クライアント端末装置および協調作業コーディネータ並びに記録媒体
JP5049515B2 (ja) * 2006-06-06 2012-10-17 キヤノン株式会社 情報処理装置および情報処理方法および情報処理プログラム
JP5100532B2 (ja) 2008-06-27 2012-12-19 キヤノン株式会社 情報処理装置、その制御方法及びプログラム
US11914674B2 (en) * 2011-09-24 2024-02-27 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US11195057B2 (en) * 2014-03-18 2021-12-07 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9105121B2 (en) * 2012-03-06 2015-08-11 Apple Inc. Image editing with user interface controls overlaid on image
JP2014035541A (ja) 2012-08-10 2014-02-24 Casio Comput Co Ltd コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム
CN104468959A (zh) * 2013-09-25 2015-03-25 中兴通讯股份有限公司 移动终端通话过程中显示图像的方法、装置及移动终端
CN103611294B (zh) 2013-11-27 2016-12-07 南京航空航天大学 一种棋牌类游戏语音控制装置及其控制方法
CN103780843A (zh) * 2014-03-03 2014-05-07 联想(北京)有限公司 一种图像处理方法及电子设备
JP2015174408A (ja) 2014-03-17 2015-10-05 株式会社リコー 画像処理装置および画像処理方法
US9430186B2 (en) * 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
CN105989132A (zh) 2015-02-17 2016-10-05 上海触趣网络科技有限公司 图像文件处理及语音控制方法
KR102468086B1 (ko) * 2015-11-06 2022-11-17 삼성전자주식회사 컨텐츠 표시 방법 및 이를 구현한 전자 장치
US9779531B1 (en) * 2016-04-04 2017-10-03 Adobe Systems Incorporated Scaling and masking of image content during digital image editing
KR102662173B1 (ko) * 2017-01-11 2024-04-30 매직 립, 인코포레이티드 의료 보조기
CN107920280A (zh) * 2017-03-23 2018-04-17 广州思涵信息科技有限公司 视频、讲义ppt和语音内容精准匹配的方法和系统
US20190237078A1 (en) 2017-08-31 2019-08-01 Humax Co., Ltd. Voice recognition image feedback providing system and method
KR102480570B1 (ko) 2017-11-10 2022-12-23 삼성전자주식회사 디스플레이장치 및 그 제어방법
CN107875625A (zh) 2017-11-23 2018-04-06 东华大学 一种基于语音的象棋对弈装置
CN108805958A (zh) 2018-03-28 2018-11-13 阿里巴巴集团控股有限公司 一种图片处理方法和装置
US10809898B2 (en) * 2018-05-15 2020-10-20 Adobe Inc. Color picker
CN109192204B (zh) * 2018-08-31 2021-05-11 广东小天才科技有限公司 一种基于智能设备摄像头的语音控制方法和智能设备
JP7141938B2 (ja) 2018-12-07 2022-09-26 富士フイルムヘルスケア株式会社 音声認識入力装置、音声認識入力プログラム及び医用画像撮像システム
CN111462736B (zh) 2019-01-17 2023-04-14 北京字节跳动网络技术有限公司 基于语音的图像生成方法、装置和电子设备
US10937200B2 (en) * 2019-03-19 2021-03-02 Adobe Inc. Object-based color adjustment
CN110136718A (zh) 2019-05-31 2019-08-16 深圳市语芯维电子有限公司 语音控制的方法和装置
CN113407089A (zh) 2019-08-26 2021-09-17 华为技术有限公司 一种语音控制的分屏显示方法及电子设备
US11804039B2 (en) * 2020-05-28 2023-10-31 Science House LLC Systems, methods, and apparatus for enhanced cameras
US11606220B2 (en) * 2020-06-20 2023-03-14 Science House LLC Systems, methods, and apparatus for meeting management
US11665284B2 (en) * 2020-06-20 2023-05-30 Science House LLC Systems, methods, and apparatus for virtual meetings

Also Published As

Publication number Publication date
WO2022030036A1 (ja) 2022-02-10
US11568877B2 (en) 2023-01-31
CA3150969A1 (en) 2022-02-10
CN114467140A (zh) 2022-05-10
JP2022029864A (ja) 2022-02-18
US20220335952A1 (en) 2022-10-20
CA3150969C (en) 2022-10-25
US20230154469A1 (en) 2023-05-18

Similar Documents

Publication Publication Date Title
JP2018137723A (ja) 遠隔会議の参加者の資質のフィードバックを提供するための方法およびシステム、コンピューティングデバイス、プログラム
US9438859B2 (en) Method and device for controlling a conference
EP3797938B1 (en) Attention shifting of a robot in a group conversation using audio-visual perception based speaker localization
WO2022256585A2 (en) Spatial audio in video conference calls based on content type or participant role
WO2022219837A1 (ja) ウェブ会議システム
CN116762125A (zh) 环境协作智能系统和方法
CN116868163A (zh) 医疗智能系统和方法
JP6807621B1 (ja) 音声に基づいて画像を変更するためのシステム
JP7168239B2 (ja) 音声に基づいて画像を変更するためのシステム
US20230093298A1 (en) Voice conference apparatus, voice conference system and voice conference method
JP2021012700A (ja) プレゼンテーション支援システム
Walkowski et al. Using a game controller for relaying deictic gestures in computer-mediated communication
JP7102035B1 (ja) 説明支援システム
WO2022074785A1 (ja) ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム
JP7477909B2 (ja) ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム
WO2022064620A1 (ja) ビデオミーティング評価システム及びビデオミーティング評価サーバ
WO2022064617A1 (ja) ビデオミーティング評価システム及びビデオミーティング評価サーバ
WO2022064619A1 (ja) ビデオミーティング評価システム及びビデオミーティング評価サーバ
WO2022064618A1 (ja) ビデオミーティング評価システム及びビデオミーティング評価サーバ
JP2023132305A (ja) 情報処理装置及び情報処理プログラム
JP2004171356A (ja) 共有情報操作装置、共有情報操作方法、共有情報操作プログラム、共有情報操作プログラムを記録したコンピュータ読み取り可能な記録媒体
Lee Multi-channel auditory search: toward understanding control processes in polychotic auditory listening

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200806

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200806

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201201

R150 Certificate of patent or registration of utility model

Ref document number: 6807621

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150