JP2023552205A - 音声通信を向上させるシステム及び方法 - Google Patents
音声通信を向上させるシステム及び方法 Download PDFInfo
- Publication number
- JP2023552205A JP2023552205A JP2023533971A JP2023533971A JP2023552205A JP 2023552205 A JP2023552205 A JP 2023552205A JP 2023533971 A JP2023533971 A JP 2023533971A JP 2023533971 A JP2023533971 A JP 2023533971A JP 2023552205 A JP2023552205 A JP 2023552205A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- voice communications
- interest
- voice
- communications
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 376
- 238000000034 method Methods 0.000 title claims abstract description 213
- 238000012545 processing Methods 0.000 claims abstract description 31
- 230000002708 enhancing effect Effects 0.000 claims abstract description 21
- 238000001514 detection method Methods 0.000 claims description 93
- 238000001356 surgical procedure Methods 0.000 claims description 84
- 238000003058 natural language processing Methods 0.000 claims description 38
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 230000000116 mitigating effect Effects 0.000 claims description 24
- 230000005236 sound signal Effects 0.000 claims description 24
- 238000010801 machine learning Methods 0.000 claims description 15
- 238000003384 imaging method Methods 0.000 claims description 13
- 238000011282 treatment Methods 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 3
- 230000015654 memory Effects 0.000 description 17
- 238000007726 management method Methods 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 12
- 229940127554 medical product Drugs 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 9
- 238000012544 monitoring process Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000012805 post-processing Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000036541 health Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001154 acute effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001684 chronic effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000002059 diagnostic imaging Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000000474 nursing effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012913 prioritisation Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 206010019909 Hernia Diseases 0.000 description 1
- 206010042008 Stereotypy Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 239000012620 biological material Substances 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002775 capsule Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010878 colorectal surgery Methods 0.000 description 1
- 238000002316 cosmetic surgery Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000002124 endocrine Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 238000002683 hand surgery Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 239000007943 implant Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000001990 intravenous administration Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000002483 medication Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000000399 orthopedic effect Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000002278 reconstructive surgery Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000003826 tablet Substances 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 210000000115 thoracic cavity Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000002485 urinary effect Effects 0.000 description 1
- 238000007631 vascular surgery Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R27/00—Public address systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/40—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/60—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
- G16H40/63—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for local operation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/07—Use of position data from wide-area or local-area positioning systems in hearing devices, e.g. program or information selection
Abstract
本開示は、音声通信を向上させるためのシステム及び方法を提供する。一態様において、本開示は、音声通信を向上させるための方法を提供する。本方法は、(a)医療的処置に関連する1つ又は複数のパラメータ、及び医療的処置に関連する1つ又は複数の音声通信を検出することと、(b)1つ又は複数のパラメータに基づいて1つ又は複数の音声通信を処理して、1つ又は複数の向上された音声通信を生成することとを含み得る。
Description
相互参照
[0001] 本出願は、2020年12月4日に提出された米国仮特許出願第63/121,655号に付与された優先権を主張し、その出願はあらゆる目的のために参照によりその全体が本明細書に援用される。
[0001] 本出願は、2020年12月4日に提出された米国仮特許出願第63/121,655号に付与された優先権を主張し、その出願はあらゆる目的のために参照によりその全体が本明細書に援用される。
背景
[0002] 医療従事者は、手術室などの医療室内で様々な処置を行うことがある。しばしば、手術室は、複数の医療従事者、又は医療スタッフなどの医療従事者以外の人によって占有され得る。医療処置中、多くの人が同時に、並行して話したり又は情報をやり取りしたりする可能性がある。そのため、手術室内の個人間の調整及び/又は情報のやり取りが妨げられる恐れがある。
[0002] 医療従事者は、手術室などの医療室内で様々な処置を行うことがある。しばしば、手術室は、複数の医療従事者、又は医療スタッフなどの医療従事者以外の人によって占有され得る。医療処置中、多くの人が同時に、並行して話したり又は情報をやり取りしたりする可能性がある。そのため、手術室内の個人間の調整及び/又は情報のやり取りが妨げられる恐れがある。
概要
[0003] 本明細書において認識されているのは、医療オペレーションを監視、支援、及び実行するための音声及び動画ベースのシステム及び方法に関する様々な制限である。本開示は、外科的処置又は医療オペレーションに関連して行われる音声通信の品質を向上させるためのシステム及び方法を提供する。本開示のシステム及び方法は、声又はそのような個人の声の活性度に基づいて、ツール、製品、及び/又は個人を検出及び/又は認識するように実施され得る。場合によっては、本開示のシステム及び方法は、話者のID又は話者によって行われた音声通信の内容に基づいて、1人又は複数人の関心のある人物によって行われた音声通信に優先順位を付けるように実施され得る。場合によっては、本開示のシステム及び方法は、1つ又は複数の音声検出装置の指向性又は方向性を調整するためのビーム形成及び関連する方法を使用して、1つ又は複数の音声通信の検出に焦点を合わせるように実施され得る。
[0003] 本明細書において認識されているのは、医療オペレーションを監視、支援、及び実行するための音声及び動画ベースのシステム及び方法に関する様々な制限である。本開示は、外科的処置又は医療オペレーションに関連して行われる音声通信の品質を向上させるためのシステム及び方法を提供する。本開示のシステム及び方法は、声又はそのような個人の声の活性度に基づいて、ツール、製品、及び/又は個人を検出及び/又は認識するように実施され得る。場合によっては、本開示のシステム及び方法は、話者のID又は話者によって行われた音声通信の内容に基づいて、1人又は複数人の関心のある人物によって行われた音声通信に優先順位を付けるように実施され得る。場合によっては、本開示のシステム及び方法は、1つ又は複数の音声検出装置の指向性又は方向性を調整するためのビーム形成及び関連する方法を使用して、1つ又は複数の音声通信の検出に焦点を合わせるように実施され得る。
[0004] 一態様において、本開示は、音声通信を向上させるための方法を提供する。本方法は、(a)医療的処置に関連する1つ又は複数のパラメータ、及び医療的処置に関連する1つ又は複数の音声通信を検出することと、(b)1つ又は複数のパラメータに基づいて1つ又は複数の音声通信を処理して、1つ又は複数の向上された音声通信を生成することと、を含み得る。
[0005] いくつかの実施形態において、1つ又は複数のパラメータが、1つ又は複数の音声通信を行った人間又はロボットの身体的特徴、顔、声、又はIDを含む。いくつかの実施形態において、1つ又は複数のパラメータが、1つ又は複数の音声通信のキーワード、フレーズ、又はセンテンスを含む。いくつかの実施形態において、1つ又は複数のパラメータが、使用中のツール又は器具のタイプ、又は医療的処置のフェーズを含む。
[0006] いくつかの実施形態において、1つ又は複数の音声通信を処理することが、1つ又は複数の音声検出装置の検出領域、検出範囲、方向性、又は指向性を調整するためのビーム形成を含む。いくつかの実施形態において、1つ又は複数の音声通信を処理することが、話者のIDに基づいて、1つ又は複数の音声通信の検出又は捕捉に優先順位を付けることを含む。いくつかの実施形態において、1つ又は複数の音声通信を処理することが、1つ又は複数の音声通信内の1つ又は複数のキーワード、フレーズ、又はセンテンスの検出に基づいて、検出又は捕捉の優先順位を調整することを含む。いくつかの実施形態において、1つ又は複数の音声通信を処理することが、1つ又は複数の音声通信内の1つ又は複数のキーワード、フレーズ、又はセンテンスの検出に基づいて、検出又は捕捉の優先順位を調整することを含む。いくつかの実施形態において、1つ又は複数の音声通信を処理することが、1つ又は複数の音声通信の第2の音声通信の音量に対して、1つ又は複数の音声通信の第1の音声通信の音量を上げることを含む。いくつかの実施形態において、1つ又は複数の音声通信を処理することが、1つ又は複数の音声通信の第2の音声通信の音量に対して、1つ又は複数の音声通信の第1の音声通信の音量を下げることを含む。いくつかの実施形態において、1つ又は複数の音声通信を処理することが、1つ又は複数の音声通信をミュート又は排除することを含む。
[0007] いくつかの実施形態において、1つ又は複数の向上された音声通信が、関心のあるツール若しくは器具、又は関心のあるツール若しくは器具の使用法に対応する。いくつかの実施形態において、1つ又は複数の向上された音声通信が、関心のある手術フェーズに対応する。いくつかの実施形態において、1つ又は複数の向上された音声通信が、関心のある医師、外科医、医療ワーカ、販売業者の代表者、又は製品の専門家に対応する。
[0008] いくつかの実施形態において、本方法は、コンピュータビジョン、自然言語処理、又は機械学習を使用して1つ又は複数のパラメータを検出することをさらに含み得る。いくつかの実施形態において、1つ又は複数のパラメータを検出することが、1つ又は複数の音声通信に関連付けられた医療ツール又は器具を識別することを含む。いくつかの実施形態において、医療ツール又は器具を識別することは、ツール又は器具を撮像すること、ツール又は器具に関連付けられた識別子をスキャンすること、又はツール又は器具の情報を含む1つ又は複数の電磁波を受信することを含む。
[0009] 別の態様では、本開示は、音声通信を向上させるための方法であって、(a)医療的処置に関連する複数の音声通信を受信することと、(b)関心のあるパラメータに対応する1つ又は複数のユーザ入力を受信することであって、関心のあるパラメータが医療的処置の1つ又は複数のステップの実行に関連する、受信することと、(c)複数の音声通信及び1つ又は複数のユーザ入力に基づいて、1つ又は複数の向上された音声通信を生成することと、を含む方法を提供する。いくつかの実施形態において、1つ又は複数のユーザ入力は、関心のあるパラメータのユーザ選択を含む。いくつかの実施形態において、関心のあるパラメータは、関心のある器具、専門家、代表者、医師、外科医、又は手術フェーズを含む。いくつかの実施形態において、1つ又は複数のユーザ入力は、関心のある音声チャンネルのマスターリストから関心のある音声チャンネルを選択することを含む。
[0010] いくつかの実施形態において、1つ又は複数の向上された音声通信を生成することが、関心のあるパラメータに関連する1つ又は複数の音声チャンネルを隔離又は抽出することを含む。いくつかの実施形態において、1つ又は複数の向上された音声通信を生成することが、複数の音声通信の第2の音声通信の音量に対して複数の音声通信の第1の音声通信の音量を上げることを含む。いくつかの実施形態において、1つ又は複数の向上された音声通信を生成することが、複数の音声通信の第2の音声通信の音量に対して、複数の音声通信の第1の音声通信の音量を下げることを含む。いくつかの実施形態において、1つ又は複数の向上された音声通信を生成することが、1つ又は複数の音声通信をミュート又は排除することを含む。
[0011] いくつかの実施形態において、1つ又は複数の向上された音声通信が、医療的処置に関連する1つ又は複数の動画を後処理して、関心のあるパラメータに関連する1つ又は複数の音声チャンネルを隔離、抽出、又は増強することによって生成される。いくつかの実施形態において、1つ又は複数の向上された音声通信が、医療的処置の複数の音声通信又は1つ又は複数の動画に関連付けられたメタデータに基づいて生成される。いくつかの実施形態において、1つ又は複数の向上された音声通信が、複数の音声チャンネルに対応する。いくつかの実施形態において、複数の音声チャンネルが、医療的処置をサポートする複数の医師、外科医、販売業者の代表者、又は製品の専門家に対応する。いくつかの実施形態において、複数の音声チャンネルが、医療的処置の1つ又は複数のステップを実行するために使用される複数の異なるツールに対応する。いくつかの実施形態において、複数の音声チャンネルが、医療的処置の複数の異なるステップ又はフェーズに対応する。
[0012] いくつかの実施形態において、1つ又は複数の音声通信を処理することが、(i)1つ又は複数の音声通信を向上させること、又は(ii)1人又は複数人のユーザに対して1つ又は複数の音声通信をミュート又は排除することを含む。いくつかの実施形態において、1つ又は複数の音声通信が、放送事業者、緩和エンティティ、遠隔専門家、販売業者の代表者、又は1人又は複数人のユーザによって処理され、1人又は複数人のユーザが、手術動画又はその一部を視聴する少なくとも1人のユーザを含む。
[0013] いくつかの実施形態において、本方法は、複数の音声通信がそこから受信又は捕捉される領域の視野を追跡するために、1つ又は複数のカメラ又は撮像センサを使用することをさらに含み得る。いくつかの実施形態において、本方法は、視野を1人又は複数人の遠隔参加者に伝送することをさらに含み得る。いくつかの実施形態において、1つ又は複数の関心のある音声ビーム又は領域が、1人又は複数人の遠隔参加者によって選択可能であり、1つ又は複数の関心のある音声ビーム又は領域が、(i)複数の音声通信の少なくともサブセット、又は(ii)視野内の1つ又は複数の領域に対応する。いくつかの実施形態において、1つ又は複数の関心のある音声ビーム又は領域の選択は、現地で又は遠隔式に実行される。
[0014] いくつかの実施形態において、本方法は、1人若しくは複数人の関心のある個人又は1つ若しくは複数の関心のある領域を追跡又はタグ付けすることをさらに含み得る。いくつかの実施形態において、本方法は、(i)向上させる音声信号のセット、又は(ii)除去又は減衰させる音声信号のセットを選択することをさらに含み得る。いくつかの実施形態において、本方法は、1人又は複数人の個人が1つ又は複数のカメラ又は撮像センサに対して移動するにつれて、1人若しくは複数人の関心のある個人又は1つ若しくは複数の関心のある領域を追跡することをさらに含み得る。いくつかの実施形態において、関心のある音声ビーム又は領域の選択は、医療的処置の開始前に予め登録される。いくつかの実施形態において、関心のある音声ビーム又は領域の選択は、医療的処置に関連する記録されたコンテンツに対して行われる。
[0015] 別の態様では、本開示は、音声通信を処理する方法であって、(a)医療的処置に関連する、又は医療的処置を実行する1人又は複数人の個人から複数の音声通信を受信することと、(b)1人又は複数人の個人からの複数の音声通信の少なくともサブセットに基づいて、医療的処置に関連する1つ又は複数のツール、製品、又は器具を検出、認識、又は識別することと、を含む方法を提供する。いくつかの実施形態において、(a)は、複数の音声通信を受信するために、1つ又は複数のマイクロフォン又は1つ又は複数のマイクロフォンを含むマイクロフォンアレイを使用することを含む。いくつかの実施形態において、1つ又は複数のマイクロフォンは、複数の音声通信又はそのサブセット内の1つ又は複数のキーワードを検出するように構成される。いくつかの実施形態において、1つ又は複数のツール、製品、又は器具が、1つ又は複数のキーワードに基づいて識別される。いくつかの実施形態において、1つ又は複数のツール、製品、又は器具が、自然言語処理を使用して識別される。いくつかの実施形態において、自然言語処理が、複数の音声通信を分析するための1つ又は複数のアルゴリズムを使用して実施される。
[0016] いくつかの実施形態において、1つ又は複数のアルゴリズムが、(i)複数の音声通信を解釈し、(ii)どのツール又は製品が医療的処置を実行するために使用されているかを判定するために、コンテキスト認識型の自然言語処理を実施するように構成される。いくつかの実施形態において、1つ又は複数のアルゴリズムが、(i)複数の音声通信を解釈し、(ii)どのツール又は製品が医療的処置を実行する医師又は外科医によって要求されているかを判定するために、コンテキスト認識型の自然言語処理を実施するように構成される。いくつかの実施形態において、1つ又は複数のアルゴリズムが、(i)複数の音声通信を解釈し、(ii)どのような処置が実行されているか、又は処置のどのステップが実行されているかを判定するために、コンテキスト認識型の自然言語処理を実施するように構成される。いくつかの実施形態において、1つ又は複数のアルゴリズムが、(i)複数の音声通信を解釈し、(ii)(a)処置の異なるステップ、(b)処置の1つ又は複数のステップのタイミング、又は(c)医療的処置を実行するために医師又は病院によってどのツール又は製品が使用されるか、をカタログ化するために、コンテキスト認識型の自然言語処理を実施するように構成される。いくつかの実施形態において、1つ又は複数のアルゴリズムが、複数の音声通信に対して自然言語処理を使用して、外科的処置におけるステップのタイミング、又はツール、製品、若しくは器具の使用量若しくは使用頻度に関するデータを生成又は編集するように構成される。いくつかの実施形態において、1つ又は複数のアルゴリズムが、複数の音声通信に対して自然言語処理を使用して、自然言語処理を使用して識別される異なる処置又は処置ステップの成功率及び/又は失敗率を決定するように構成される。いくつかの実施形態において、1つ又は複数のアルゴリズムが、複数の音声通信に対して自然言語処理を使用して、自然言語処理を使用して識別されるツール、製品、又は器具を使用して実行される異なる処置の成功率及び/又は失敗率を決定するように構成される。
[0017] 本開示の別の態様は、1つ又は複数のコンピュータプロセッサによる実行時に、上記又は本明細書の他の箇所の方法のいずれかを実施する機械実行可能コードを含む非一過性のコンピュータ可読媒体を提供する。
[0018] 本開示の別の態様は、1つ又は複数のコンピュータプロセッサと、それに結合されたコンピュータメモリとを含むシステムを提供する。コンピュータメモリは、1つ又は複数のコンピュータプロセッサによる実行時に、上記又は本明細書の他の箇所の方法のいずれかを実施する機械実行可能コードを含む。
[0019] 本開示のさらなる態様及び利点は、以下の詳細な記載から当業者に容易に明らかとなろう。そこには本開示の説明に役立つ実施形態のみが示され記載されている。理解されるように、本開示は他の様々な実施形態が可能であり、そのいくつかの詳細は、すべてが本開示から逸脱することなく、様々な自明の点において修正が実現可能である。したがって、各図面及び記載は、本質的に説明に役立つものとみなすべきであり、限定的なものとみなすべきではない。
参照による援用
[0020] 本明細書において言及されるあらゆる公報、特許、及び特許出願は、個々の公報、特許、又は特許出願のそれぞれが参照により援用されるように具体的且つ個別に示された場合と同じ程度に、参照により本明細書に援用される。参照により援用される公報及び特許又は特許出願が本明細書に含まれる開示内容と矛盾する限りにおいて、本明細書はそのような矛盾する資料に取って代わり、及び/又は優先されることを意図している。
[0020] 本明細書において言及されるあらゆる公報、特許、及び特許出願は、個々の公報、特許、又は特許出願のそれぞれが参照により援用されるように具体的且つ個別に示された場合と同じ程度に、参照により本明細書に援用される。参照により援用される公報及び特許又は特許出願が本明細書に含まれる開示内容と矛盾する限りにおいて、本明細書はそのような矛盾する資料に取って代わり、及び/又は優先されることを意図している。
図面の簡単な説明
[0021] 本発明の新規の特徴は、添付の特許請求の範囲において具体的に記載される。本発明の原理が利用される説明に役立つ実施形態を記載する以下の詳細な記載及び添付の図面(本明細書で「図」及び「FIG」とも呼ぶ)を参照することによって、本発明の特徴及び利点のさらに深い理解が得られることになる。
[0021] 本発明の新規の特徴は、添付の特許請求の範囲において具体的に記載される。本発明の原理が利用される説明に役立つ実施形態を記載する以下の詳細な記載及び添付の図面(本明細書で「図」及び「FIG」とも呼ぶ)を参照することによって、本発明の特徴及び利点のさらに深い理解が得られることになる。
詳細な記載
[0037] 本発明の様々な実施形態を本明細書に示し、記載してきたが、このような実施形態は単なる例として提示されていることが当業者には明らかであろう。数多くの変形、変更、及び置換えが、本発明から逸脱することなく、当業者に思い浮かぶかもしれない。本明細書に記載された本発明の実施形態に対する様々な代替形態が利用され得ることを理解されたい。
[0037] 本発明の様々な実施形態を本明細書に示し、記載してきたが、このような実施形態は単なる例として提示されていることが当業者には明らかであろう。数多くの変形、変更、及び置換えが、本発明から逸脱することなく、当業者に思い浮かぶかもしれない。本明細書に記載された本発明の実施形態に対する様々な代替形態が利用され得ることを理解されたい。
[0038] 「少なくとも」、「より大きい」、又は「以上」という用語が、一続きの2つ以上の数値の最初の数値の前にある場合は常に、「少なくとも」、「より大きい」、又は「以上」という用語は、その一続きの数値の各数値に適用される。例えば、1、2又は3以上は、1以上、2以上、又は3以上に相当する。
[0039] 「より大きくない」、「より小さい」、又は「以下」という用語が、一続きの2つ以上の数値の最初の数値の前にある場合は常に、「より大きくない」、「より小さい」、又は「以下」という用語は、その一続きの数値の各数値に適用される。例えば、3、2又は1以下は、3以下、2以下、又は1以下に相当する。
[0040] 本明細書で交換可能に使用される「リアルタイム(real time)」又は「リアルタイム(real-time)」という用語は、一般に、最近得られた(例えば、収集又は受信された)データを使用して実行されるイベント(例えば、操作、プロセス、方法、技術、演算、計算、分析、視覚化、最適化、その他)を指す。場合によっては、リアルタイムイベントは、少なくとも0.0001ミリ秒(ms)、0.0005ms、0.001ms、0.005ms、0.01ms、0.05ms、0.1ms、0.5ms、1ms、5ms、0.01秒、0.05秒、0.1秒、0.5秒、1秒、又はそれを超える秒以内など、ほぼ即座に、又は十分に短い時間スパン内に実行され得る。場合によっては、リアルタイムイベントは、最大で1秒、0.5秒、0.1秒、0.05秒、0.01秒、5ms、1ms、0.5ms、0.1ms、0.05ms、0.01ms、0.005ms、0.001ms、0.0005ms、0.0001ms、又はそれを下回る秒以内など、ほぼ即座に、又は十分短い時間スパン内に実行され得る。
[0041] 一態様において、本開示は、外科的処置中に行われる音声通信を監視し、向上させるためのシステムを提供する。本明細書で言及されるように、音声通信を監視することは、音声記録装置又は音声検出装置(例えば、マイクロフォン又はマイクロフォンのアレイ)を使用して、外科的処置の前、間、及び/又は後に、1又は複数の人又は物体によって行われる音声通信を記録及び/又は検出することを含み得る。場合によっては、音声通信を監視することは、音声記録装置又は音声検出装置(例えば、マイクロフォン又はマイクロフォンのアレイ)を使用して、1又は複数の人又は物体によって行われた音声通信に基づいて1又は複数の人又は物体を識別することを含み得る。本明細書で言及され、記載されるように、音声通信を向上させることは、音声通信の伝送品質を改善すること、音声通信の1つ又は複数の部分の信号対雑音比を増加させること、及び/又は音声通信を追加のデータ又は情報で増強することを含み得る。場合によっては、音声通信を向上させることは、音声通信の他の部分に対して音声通信の1つ又は複数の部分を優先させること、又は複数の音声通信に対して1つ又は複数の音声通信を優先させることを含み得る。場合によっては、音声通信を向上させることは、音声通信の内容又は音声通信の発信源のIDに基づいて、1つ又は複数の音声検出装置の検出範囲、検出領域、指向性、及び/又は方向性を調整することを含み得る。場合によっては、音声通信を向上させることは、特定の領域若しくは地域から、又は特定の話者若しくは発信源から受信された音声通信に対する1つ又は複数の音声検出装置の感度を調整することを含み得る。
[0042] 本開示のシステム及び方法は、外科的処置中に行われる音声通信を検出及び向上させるために使用され得る。本明細書で使用される際、外科的処置は、ヒト又は動物に対する医療手術を含み得る。医療手術は、人体又は動物の内部領域又は外部領域に対する1つ又は複数の手術を含み得る。医療手術は、少なくとも1つ又は複数の医療製品、医療ツール、又は医療器具を用いて行われ得る。医療製品は、本明細書において医療ツール又は医療器具と交換可能に呼ばれることがあり、治療又は診断目的で単独又は他の装置と組み合わせて使用される装置を含み得る。医療製品は医療装置であり得る。医療製品には、手術を行うため、又は手術の実施を容易にするために手術中に使用されるあらゆる製品が含まれ得る。医療製品には、ツール、器具、インプラント、補綴物、使い捨て品、又は人間に使用されるように製造者によって意図され得る任意の他の機器、アプライアンス、ソフトウェア、又は材料が含まれ得る。医療製品は、傷害や又はハンディキャップの診断、監視、治療、緩和、又は補償のために使用され得る。医療製品は、疾病の診断、予防、監視、治療、又は緩和のために使用され得る。場合によっては、医療製品は、解剖学的又は生理学的プロセスの調査、置換、又は修正に使用され得る。医療製品の例としては、外科用器具(例えば、ハンドヘルド型又はロボット型)、カテーテル、内視鏡、ステント、ペースメーカー、人工関節、脊椎安定化装置、使い捨て手袋、ガーゼ、点滴液、薬剤などが挙げられ得る。
[0043] 異なる種類の外科的処置の例としては、胸部外科手術、整形外科手術、神経外科手術、眼科手術、形成・再建外科手術、血管外科手術、ヘルニア外科手術、頭頸部外科手術、手外科手術、内分泌外科手術、結腸・直腸外科手術、乳腺外科手術、泌尿器外科手術、婦人科手術、その他の種類の手術が挙げられ得るが、これらに限定されない。場合によっては、外科的処置は、ドナーとレシピエントを含む2以上の医療手術を含み得る。このような場合、外科的処置は、ドナーとレシピエントとの間で生物学的物質(例えば、臓器、組織、細胞その他)を交換するための2以上の並行な医療手術を含み得る。
[0044] 本開示のシステム及び方法は、医療施設で実施される外科的処置中に行われる音声通信を検出し、向上させるために実施され得る。本明細書で使用される際、医療施設は、あるレベルの医療ケア又は支援を提供し得る任意のタイプの施設、機関、又は組織を指し得る。いくつかの例において、医療施設には、病院、診療所、緊急医療施設、外来患者施設、外来外科センター、老人ホーム、ホスピスケア、在宅医療、リハビリテーションセンター、研究室、画像診断センター、獣医診療所、又は医療又は支援を提供できる他の任意のタイプの施設が含まれ得る。医療施設は、主に短期医療向けに、又は長期医療向けに提供されてもよいし、又はされなくてもよい。医療施設は、常時開いていてもよく、又は開いている時間が限られていてもよい。医療施設は、医療の提供を助ける専用の機器を備えていてもよいし、又は備えていなくてもよい。医療は、慢性症状又は急性症状のある個人に提供されてもよい。医療施設は、1人又は複数人の医療提供者(別名、医療関係者/医療従事者)を雇用してもよい。医療施設についての本明細書でのいかなる記載も、病院又は他の任意のタイプの医療施設を指していてもよく、その逆の場合も同様である。
[0045] 場合によっては、医療施設は、1種又は複数種の外科手術が行われ得る1つ又は複数の場所を医療施設の内部に有し得る。場合によっては、1つ又は複数の場所は、1つ又は複数の手術室を含み得る。場合によっては、1つ又は複数の手術室は、資格のある個人又は承認された個人のみがアクセスできる。資格のある個人又は承認された個人は、外科的処置を受ける医療患者又は医療対象者、外科的処置の1つ又は複数のステップを実行する医療オペレータ、及び/又は外科的処置の1つ又は複数の側面をサポートする医療関係者又はサポートスタッフなどの個人を含み得る。例えば、医療関係者又はサポートスタッフは、医療オペレータが外科的処置の1つ又は複数のステップを実行するのを支援するために、手術室に存在し得る。
[0046] 本開示のシステム及び方法は、1つ又は複数の音声記録装置又は音声検出装置を用いて実施することができる。本明細書で使用されるように、音声記録装置は、音声通信を受信、記録、及び/又は検出することが可能な装置を含み得る。1つ又は複数の音声記録装置は、外科的処置に関連する複数の音声通信を取得するように構成され得る。場合によっては、複数の音声通信は、複数の音声記録装置を用いて捕捉され得る。複数の音声記録装置は、1、2、3、4、5、6、7、8、9、10個、又はそれ以上の音声記録装置を含み得る。複数の音声記録装置は、n個の音声記録装置を含み得、nは2以上の任意の整数である。
[0047] 複数の音声記録装置は、医療対象者又は医療対象者に外科手術を行う医療関係者に対して複数の異なる位置及び/又は向きに設けられてもよい。複数の音声記録装置は、医療手術を受ける医療患者又は対象者、又は医療手術を行う医療オペレータに対して、複数の異なる位置及び/又は向きに設けられてもよい。複数の音声記録装置は、互いに複数の異なる位置及び/又は向きに設けられてもよい。
[0048] 場合によっては、複数の音声記録装置は、天井、壁、床、手術室の構造要素(例えば、梁)、手術台、医療器具、又は医療オペレータの身体の一部(例えば、医療オペレータの手、腕、又は頭部)に取り付けられてもよい。場合によっては、複数の音声記録装置は、天井、壁、床、手術室の構造要素、手術台、医療器具、又は医療オペレータの身体の一部に解放可能に結合されてもよい。
[0049] 場合によっては、複数の音声記録装置は、複数の音声記録装置が取り付けられ、固定され、又は解放可能に結合された表面又は構造要素に対して移動可能であってもよい。例えば、複数の音声記録装置の検出領域を調整するために、複数の音声記録装置を位置決めし直す、及び/又は回転させることができる。場合によっては、1つ又は複数のジョイント、ヒンジ、アーム、レール、及び/又はトラックが、複数の音声記録装置の位置及び/又は向きを調整するために使用されてもよい。場合によっては、複数の音声記録装置のそれぞれの位置及び/又は向きは、人間のオペレータによって手動で調整可能であってもよい。他の場合において、複数の音声記録装置のそれぞれの位置及び/又は向きは、コンピュータに実装される追跡ソフトウェア(例えば、映像追跡ソフトウェア及び/又は音声追跡ソフトウェア)に部分的に基づいて自動的に調整可能であってもよい。複数の音声記録装置のそれぞれの位置及び/又は向きは、物理的に調整されてもよい。複数の音声記録装置のそれぞれの位置及び/又は向きは、人間のオペレータによって遠隔式に調整又は制御されてもよい。
[0050] 図1は、音声通信を監視し、捕捉し、向上させるために医療室内で利用され得る音声捕捉システムの例を示す。音声捕捉システムは、上述したような1つ又は複数の音声記録装置を備え得る。いくつかの代替実施形態では、音声捕捉システムは、1つ又は複数の撮像装置を備え得る。場合によっては、音声記録装置は、1つ又は複数の撮像装置と一体化されていてもよい。他の場合、音声記録装置は、1つ又は複数の撮像装置とは別個の区別されたものであってもよい。音声捕捉システムは、外科的処置に関連する音声通信、或いは外科的処置が行われている手術現場又は手術環境若しくはその近傍で行われる音声通信を捕捉するように構成されてもよい。
[0051] 音声捕捉システムは、第1の場所110で行われた音声通信を捕捉するように構成されてもよい。場合によっては、第1の場所110で捕捉された音声通信は、第1の場所110に位置する音声向上モジュールを使用して処理及び/又は向上されてもよい。他の場合、第1の場所110で捕捉された音声通信は、処理及び/又は向上のために第2の場所120に伝送されてもよい。場合によっては、第1の場所110及び第2の場所120は、同じ手術室又は医療施設内にあり得る。他の場合、第1の場所110は手術室又は医療施設内にあり、第2の場所120は手術室又は医療施設から離れた場所であり得る。場合によっては、音声捕捉システムはまた、ローカル通信装置115を備え得る。場合によっては、ローカル通信装置115は、上述した1つ又は複数の音声記録装置に動作可能に結合されてもよい。ローカル通信装置115は、任意選択的に、リモート通信装置125(例えば、リモートユーザ127のモバイル装置)、又はリモートサーバ170と通信し得る。場合によっては、リモートサーバ170は、第1の場所110で録音された音声通信を処理及び/又は向上するように構成されてもよい。
[0052] いくつかの実施形態において、第1の場所110からの音声通信は、通信チャンネル150を介してリモート通信装置125と通信するように構成されたローカル通信装置115を使用して、第2の場所120に伝送されてもよい。リモート通信装置とローカル通信装置との間には、任意のタイプの通信チャンネル150が形成されてよい。通信チャンネルは、直接通信チャンネルであってもよいし、又は間接通信チャンネルであってもよい。通信チャンネルは、有線通信、無線通信、又はその両方を採用してもよい。通信は、ローカルエリアネットワーク(LAN)、インターネットなどのワイドエリアネットワーク(WAN)、又は任意の形態の電気通信ネットワーク(例えば、セルラーサービスネットワーク)などのネットワークを介して行われてもよい。採用される通信には、3G、4G、LTE通信、及び/又はブルートゥース、赤外線、無線、又は他の通信が含まれ得るが、これらに限定されない。通信は、任意選択的に、ルータ、衛星、タワー、及び/又はワイヤによって補助されてもよい。通信は、第1の場所及び/又は第2の場所の既存の通信ネットワークを利用しても又はしなくてもよい。
[0053] 第1の場所110は、医療施設の手術室などの医療室であってもよい。医療室は、診療室内であってもよいし、又は医療施設の他の部分であってもよい。医療施設とは、あるレベルの医療又は支援を提供し得るあらゆるタイプの施設又は組織であってもよい。いくつかの例において、医療施設には、病院、診療所、緊急医療施設、外来患者施設、外来外科センター、老人ホーム、ホスピスケア、在宅医療、リハビリテーションセンター、研究所、画像診断センター、獣医診療所、又は医療又は支援を提供できる他の任意のタイプの施設が含まれ得る。医療施設は、主に短期医療向けに、又は長期医療向けに提供されてもよいし、又はされなくてもよい。医療施設は、常時開いていてよく、又は開いている時間が限られていてもよい。医療施設は、医療の提供を助ける専用の機器を備えていても、又は備えていなくてもよい。医療は、慢性症状又は急性症状のある個人に提供されてもよい。医療施設は、1人又は複数人の医療提供者(別名、医療関係者/医療従事者)を雇用してもよい。医療施設についての本明細書でのいかなる記載も、病院又は他の任意のタイプの医療施設を指していてもよく、その逆の場合も同様である。
[0054] 第1の場所110は、医療施設内の任意の部屋又は領域でもよい。例えば、第1の場所は、手術室、外科室、診療室、トリアージセンタ、緊急治療室、又は他の任意の場所でもよい。第1の場所は、部屋のある領域内でもよく、又は部屋の全体でもよい。第1の場所は、手術が行われることのある任意の場所、外科手術が行われることのある任意の場所、医療処置が行われることのある任意の場所、及び/又は医療製品が使用される任意の場所でもよい。一例では、第1の場所は、手術を受けている患者118と、手術を行っている外科医か、又は手術を行うのを補助している外科助手など、1人又は複数人の医療関係者117とがいる手術室でもよい。医療関係者には、医療処置を行うか、又は医療処置の実行を補助する任意の個人が含まれ得る。医療関係者には、医療処置のサポートを提供する個人も含まれ得る。例えば、医療関係者には、外科手術を行う外科医、看護師、麻酔科医などが含まれ得る。医療関係者の例には、医師(例えば、外科医、麻酔科医、放射線科医、内科医、研修医、腫瘍専門医、血液学者、心臓病専門医など)、看護師(例えば、CNRA、手術室看護師、外回り看護師)、医師の助手、外科手術技師などが含まれ得る。医療関係者には、医療処置の場にいて、その医療処置に立ち会うことを許可された個人も含まれ得る。
[0055] 場合によっては、第2の場所120は、第1の場所110と同じ手術室又は医療施設内にあってもよい。他の場合、第2の場所120は、第1の場所110から離れた任意の場所であってもよい。例えば、第1の場所が病院である場合、第2の場所は病院の外であってもよい。場合によっては、第1の場所と第2の場所は同じ建物内であるが異なる部屋、階、又は棟内にあってもよい。
[0056] 実施形態によっては、1つ又は複数の音声記録装置が、第1の場所110に、又はその近くに設けられてもよい。1つ又は複数の音声記録装置は、医療コンソール140によって支持されてもよいし、又はされなくてもよい。いくつかの実施形態において、1つ又は複数の音声記録装置を、第1の場所において天井160、壁、家具、又は他の物品によって支持してもよい。例えば、1つ又は複数の音声記録装置は、壁、天井、又は他の装置に取り付けてもよい。このような音声記録装置は、表面に直接取り付けてもよく、又はブーム若しくはアームに取り付けてもよい。例えば、アームは、音声記録装置を支持しながら、天井から下に延びてもよい。別の例では、アームは、音声記録装置を支持しながら、患者のベッド又は表面に取り付けられてもよい。場合によっては、音声記録装置は、医療関係者が装着してもよい。例えば、音声記録装置は、ヘッドバンド、リストバンド、胴体、又は医療関係者の他の任意の部分に装着してもよい。音声記録装置は、医療装置の一部分でもよく、又は医療装置(例えば、内視鏡など)によって支持されてもよい。この1つ又は複数の音声記録装置は、固定式又は可動式でもよい。この1つ又は複数の音声記録装置は、1つ以上の軸、2つ以上の軸、又は3つ以上の軸を中心に回転できるようになっていてもよい。この1つ又は複数の音声記録装置は、パン・チルト・ズーム動作を使用して調整されてもよい。音声記録装置は、個人が第1の場所において手動で移動してもよい。音声記録装置は、適位置にロックされてもよく、及び/又はロック解除されて移動してもよい。場合によっては、1つ又は複数の音声記録装置は、1人又は複数人の遠隔ユーザによって遠隔制御されてもよい。音声記録装置の位置及び/又は向きは音声記録装置に関連付けられる検出範囲又は検出領域を修正するために調整されてもよい。
[0057] 場合によっては、1つ又は複数の音声記録装置は、医療コンソール140に設けられてもよい。医療コンソール140は、任意選択的に1つ又は複数の音声記録装置145、146を含んでもよい。他の場合、1つ又は複数の音声記録装置は、医療コンソール140の関節アーム143の遠位端に位置決めされてもよい。1つ又は複数の音声記録装置145、146によって捕捉された音声通信は、音声処理モジュールを用いて処理及び向上されてもよい。音声通信は、捕捉される際にリアルタイムで処理及び向上されてもよい。音声通信は、音声通信を遠隔で受信し、音声記録装置によって捕捉された音声通信を向上させるように構成された音声向上モジュールに音声通信を提供するように構成された遠隔通信装置に送信されてもよい。
[0058] 場合によっては、音声通信の向上は、第1の場所110で現地で行われてもよい。実施形態によっては、この向上は、医療コンソール140上で行われてもよい。例えば、向上は、医療コンソールに配置されることのある、通信装置115又は別のコンピュータの1つ又は複数のプロセッサの助けを借りて行われてもよい。場合によっては、向上は、向上は第1の場所から遠隔で行われてもよい。場合によっては、1つ又は複数のサーバ170を利用して、音声分析及び向上を実行してもよい。このサーバは、複数の場所に由来する情報にアクセス及び/又は受信可能であり得、1つ又は複数のデータセットを収集してもよい。機械学習と連携してこのデータセットを使用して、音声分析及び/又は向上を一段と正確なものにしてもよい。本明細書におけるサーバのいかなる記載もまた、あらゆるタイプのクラウドコンピューティングのインフラストラクチャに適用されてよい。分析は遠隔で行われてもよく、フィードバックは、実質的にリアルタイムにコンソール及び/又は位置通信装置に伝達されてもよい。本明細書におけるリアルタイムのいかなる記載も、短期間のうち(例えば、約10分、5分、3分、2分、1分、30秒、20秒、15秒、10秒、5秒、3秒、2秒、1秒、0.5秒、0.1秒、0.05秒、0.01秒、又はそれに満たない時間以下のうち)に生じ得るあらゆる動作を含み得る。
[0059] いくつかの実施形態において、通信装置115、125は、1つ又は複数のマイクロフォン又はスピーカを備えてもよい。マイクロフォンは、第1の場所におけるユーザの声又は医療関係者の発話などの可聴音を捕捉するように構成された音声検出装置を備えてもよい。音(例えば、音声通信又は向上された音声通信)を再生するために、1つ又は複数のスピーカが設けられてもよい。例えば、リモート通信装置125上のスピーカは、第2の場所にいるエンドユーザが第1の場所にあるローカル通信装置115によって捕捉された音を聞くことを可能にし得、逆も同様である。いくつかの実施形態において、音声向上モジュールが提供されてもよい。音声向上モジュールは、外科的処置を監視するための動画捕捉システムによって支持されてもよい。音声向上モジュールは、バックグラウンドノイズ又は優先順位の低い他の人物又は物体による音声通信を最小化又は低減しつつ、騒がしい部屋内の声を明瞭に捕捉するように構成され得るマイクロフォンのアレイを備えてもよい。音声向上モジュールは、分離可能であってもよいし、又は動画捕捉システムと一体であってもよい。
[0060] 図2は、1つ又は複数の音声記録装置200-1、200-2、及び200-3を備える複数の音声記録装置を示す。1つ又は複数の音声記録装置は、外科手術が医療患者118に対して行われ得る医療室内に設けられ得る。複数の音声記録装置200-nは、n個の音声記録装置を備えてもよく、nは1以上である。記録装置のそれぞれは、記録装置に関連する対応する検出範囲又は検出領域210-1、210-2、及び210-3を有し得る。検出範囲又は検出領域210-1、210-2、及び210-3は、記録装置に対して特定の方向に焦点を合わせられるか、又は方向付けられてもよい(本明細書では指向性又は方向性と呼ぶ)。検出領域のそれぞれは、記録装置が特定の閾値音量を超える音声通信を登録、記録、及び/又は捕捉し得る領域又は範囲に対応し得る。音声記録装置の検出領域は、重複していてもよいし、又は部分的に重複していてもよい。場合によっては、音声記録装置の検出領域は異なっていてもよく、及び/又は重なっていなくてもよい。場合によっては、音声記録装置の位置及び/又は向きを変更することによって、検出領域を調整又は変更することができる。他の場合、検出領域は、ビーム形成及び/又はビームステアリングを使用して調整又は変更されてもよい。
[0061] 本開示は、音声通信を向上させるためのシステム及び方法を提供する。場合によっては、音声通信を向上させることは、音声通信の伝送又は受信品質を改善すること、音声通信の1つ又は複数の部分の信号対雑音比を増加させること、及び/又は音声通信を追加のデータ又は情報で増強することを含み得る。他の場合、音声通信を向上させることは、音声通信の1つ又は複数の部分を音声通信の他の部分に対して優先させること、又は複数の音声通信に対して1つ又は複数の音声通信を優先させることを含み得る。場合によっては、音声通信を向上させることは、音声通信の内容又は音声通信の発信源のIDに基づいて、1つ又は複数の音声検出装置の検出範囲、検出領域、指向性、及び/又は方向性を調整することを含み得る。場合によっては、音声通信を向上させることは、特定の領域若しくは区域から、又は特定の話者若しくは発信源から受信された音声通信に対する1つ又は複数の音声検出装置の感度を調整することを含み得る。
[0062] 本明細書で使用される場合、音声通信は、音又は発話に基づくいずれかの通信を指し得る。場合によっては、音声通信は、発話に対応する1つ又は複数の音響波形又は信号、及び/又は人間、動物、機械(例えば、医療機器)、物理的物体、自然現象、及び/又は伝送媒体を介して伝播し得る音響波形を生成するいずれかの物理的、生物学的、又は化学的相互作用又は反応によって生成される1種又は複数種の音を含み得る。伝送媒体は、気体、液体、又は固体を含み得る。音声通信は、1つ又は複数のマイクロフォン又はマイクロフォンアレイを用いて捕捉又は記録することができる。1つ又は複数のマイクロフォンは、1つ又は複数のマイクロフォンの検出範囲内にいる人の声などの可聴音を捕捉し得る。
[0063] 本開示のシステム及び方法は、音声通信が受信又は伝送されているときにリアルタイムで音声通信を向上させるために使用され得る。場合によっては、本開示のシステム及び方法は、音声通信が受信又は伝送された後の所定の時間内に、1つ又は複数の音声通信を処理し、向上された音声通信を生成することによって、音声品質を向上させるために使用され得る。
[0064] 一態様において、本開示は音声通信を向上させるための方法を提供する。本方法は、(a)医療処置に関連する1つ又は複数のパラメータと、医療処置に関連する1つ又は複数の音声通信とを検出することと、(b)1つ又は複数のパラメータに基づいて1つ又は複数の音声通信を処理して、1つ又は複数の向上された音声通信を生成することと、を含み得る。
[0065] いくつかの実施形態において、1つ又は複数のパラメータは、1つ又は複数の音声通信を行ったヒト又はロボットの身体的特徴、顔、声、又はIDを含み得る。いくつかの実施形態において、1つ又は複数のパラメータは、1つ又は複数の音声通信のキーワード、フレーズ、又はセンテンスを含み得る。
[0066] いくつかの実施形態において、1つ又は複数の音声通信を処理することは、1つ又は複数の音声検出装置の検出領域、検出範囲、指向性、又は方向性を調整するためのビーム形成を含み得る。いくつかの実施形態において、1つ又は複数の音声通信を処理することは、話者のIDに基づいて、1つ又は複数の音声通信の検出又は捕捉を優先することを含み得る。いくつかの実施形態において、1つ又は複数の音声通信を処理することは、1つ又は複数の音声通信内の1つ又は複数のキーワード、フレーズ、又はセンテンスの検出に基づいて、検出又は捕捉の優先順位を調整することを含み得る。
[0067] 場合によっては、本開示のシステム及び方法は、1つ又は複数の制御電圧(CV)信号を使用して音声通信を向上させるために使用され得る。1つ又は複数のCV信号は、アナログ信号又はデジタル信号を含み得る。場合によっては、1つ又は複数のCV信号は、音声通信の1つ又は複数の音声特性を調整するために使用されてもよい。1つ又は複数の音声特性は、例えば、音声通信の周波数、音声通信の波長、音声通信の振幅、音声通信に関連するピッチ、音声通信に関連するトーン、及び/又は音声通信に関連する強度若しくは音の大きさを含み得る。
[0068] 場合によっては、本開示のシステム及び方法は、自然言語処理(NLP)を使用して音声品質を向上させるために使用され得る。NLPは、発話及び/又はテキストに関連する情報又はデータ(例えば、外科的処置における今後の重要なステップ、外科的ステップを完了するために必要な特定のタイプのツール、又は特定の外科的ステップに必要な特定のタイプのサポートに関する情報)を導出するために、発話及びテキストなどの自然言語を操作及び/又は処理することを含み得る。
[0069] 場合によっては、本開示のシステム及び方法は、話者認識を使用して音声品質を向上させるために使用され得る。話者認識は、音声通信の1つ又は複数の特性に基づいて音声通信の話者又は発信源を識別することを含み得る。1つ又は複数の特性は、例えば、音声通信の周波数、音声通信の波長、及び/又は音声通信の振幅を含み得る。場合によっては、1つ又は複数の特性は、音声通信に関連するピッチ、音声通信に関連するトーン、及び/又は音声通信に関連する強度若しくは音の大きさを含み得る。
[0070] 場合によっては、本開示のシステム及び方法は、顔検出に基づいて音声品質を向上させるために使用され得る。顔検出は、人物の顔の特徴の1つ又は複数の画像又は動画に基づいて人物を検出又は識別することを含み得る。顔の特徴は、人物の顔の1つ又は複数の部分(例えば、目、鼻、耳、口、髪、顔の構造、その他)の物理的特徴を含み得る。人物の顔の特徴の1つ又は複数の画像又は動画は、撮像装置(例えば、カメラ、ビデオカメラ、撮像センサ、その他)を使用して取得され得る。場合によっては、顔検出は、人物の1つ又は複数の画像又は動画に基づいて人物の場所を特定することを含み得る。場合によっては、顔検出は、撮像装置の検出範囲内にある特定の場所又は領域と人物を関連付けることを含み得る。
[0071] 場合によっては、本開示のシステム及び方法は、人物に関連付けられた他の識別特徴(例えば、人物の手など顔以外の身体部分)の検出に基づいて音声品質を向上させるために使用され得る。場合によっては、他の識別特徴は、例えば、人物の発話のトーン、リズム、及び/又は抑揚、又は人物に関連する特定のマンネリズム(例えば、歩き方、又は他の繰り返される動作若しくは習慣的な動作)を含み得る。
[0072] 場合によっては、音声向上は、リアルタイムビーム形成を使用して実施され得る。ビーム形成(又は空間フィルタリング)は、指向性信号の伝送又は受信のためにセンサアレイ(例えば、マイクロフォンアレイ)で使用される信号処理技術を指し得る。ビーム形成は、マイクロフォンアレイに対する所望の方向からの信号を向上させ、他の方向からのノイズや干渉を抑制するために使用され得る。ビーム形成は、特定の角度の信号が建設的干渉を受ける一方、他の角度の信号が破壊的干渉を受けるようにアンテナアレイの素子を組み合わせることで達成され得る。ビーム形成は、空間選択性を達成するために伝送側と受信側の両方で使用することができる。ビーム形成は、発信源のID又は発信源によって行われた通信の内容に基づいて、特定の発信源からの音声通信の検出を向上させるために使用され得る。
[0073] 場合によっては、ビーム形成は、室内の音源を抽出し、室内の複数の話者を区別するために使用され得る。ビーム形成は、話者の事前又は現在の位置に基づいて実施され得、この位置は事前に知られている場合もあれば、又は顔検出に基づいて決定される場合もある。場合によっては、話者の位置は、音声源から1つ又は複数のマイクロフォンに伝達される音声通信の到達時間に基づいて決定され得る。
[0074] ビーム形成は、1つ又は複数のマイクロフォンの指向性又は方向性に対応する所定の検出範囲内で受信される音声信号の検出を改善するために使用され得る。いくつかの実施形態において、所定の検出範囲は、主治医の位置又は場所に対応する中心点から約±60°であり得る。他の実施形態では、所定の検出領域は、1人又は複数人の関係者の位置又は場所に対応する中心点から約±10°であり得る。場合によっては、本開示のシステム及び方法は、1人又は複数人の関係者を含む優先順位リストに基づいて実施され得る。優先順位リストは、外科手術を支援及び/又は実行している個人のリストを含み得る。優先順位の高い個人は、その音声通信が優先され、優先順位の低い個人の音声通信よりも捕捉され得る。
[0075] 一般に、任意の所与の時点において、本開示のシステム及び方法は、1つ又は複数の関心点に対して「±X°」の検出領域を有する「N」個のビームを生成するために使用され得る。1つ又は複数の関心点は、関心対象の物体又は人の位置又は場所に対応し得る。場合によっては、検出領域は、1つ又は複数の関心点に対して約±1°~約±90°の範囲であり得る。
[0076] 外科的処置の前に、医師、外科医、助手、又は他の医療スタッフに関して、1つ又は複数のプロフィールを設定することができる。様々な優先順位が、自動的又は所定の嗜好に基づいて、各個人に割り当てられ得る。本開示のシステム及び方法は、1つ又は複数の関心点又は人物に対して「±X°」の検出領域を有するN個のビームを形成するように実施され得る。場合によっては、検出領域は、1つ又は複数の関心点又は人物に対して約±1°から約±90°の範囲であり得る。
[0077] いくつかの実施形態において、1つ又は複数のマイクロフォン(又は任意の他の音声記録又は音声検出装置)は、(i)1人又は複数人の話者によって現在行われている音声通信、及び(ii)1人又は複数人の話者によって行われた以前の音声通信の1つ又は複数の履歴記録、に基づいて、1人又は複数人の話者を認識及び/又は識別するように構成され得る。1つ又は複数のマイクロフォンは、関心対象の人物の認識及び関係人物に割り当てられた優先順位レベルに基づいて、1人又は複数人の関係人物によって行われた音声通信の検出に優先順位を付けるように構成され得る。いくつかの実施形態において、1つ又は複数のマイクロフォンは、1人又は複数人の話者によってなされた音声通信に基づいて、手術で使用される1つ又は複数のツール又は製品を認識及び/又は識別するように構成され得る。例えば、マイクロフォンは、医師、医療ワーカ、又はサポートスタッフによって発話されたキーワードを検出し、キーワードを通じて医師、医療ワーカ、又はサポートスタッフによって言及されたツール又は製品を識別するために使用され得る。場合によっては、医師、医療ワーカ、又はサポートスタッフは、処置に関連する1つ又は複数のタスク又はステップの実行を支援するために、特定のツール又は製品を要求することがあり、1つ又は複数のマイクロフォンは、ツール又は製品が要求されたことを検出し得る。特定のツール又は製品が要求されたことを検出すると、本明細書で開示されるシステムは、医師又は外科医によって要求されたツール又は製品を取得又はアクセスするために、処置を支援する1人又は複数人の個人又はエンティティに通知又は要求を伝送し得る。
[0078] いくつかの実施形態において、自然言語処理(NLP)が、処置前及び/又は処置中に医師又は外科医によってなされた音声通信を解釈及び処理するために使用され得る。NLPは、1つ又は複数のアルゴリズムを使用して実行され得る。場合によっては、NLPは、音声通信を解釈して、(i)どのような手術が行われているか、及び/又は(ii)どのツール及び/又は製品が使用されているかを理解、判断、又は識別することができるコンテキスト認識型NLPを備え得る。いくつかの実施形態において、コンテキスト認識型NLPはまた、(i)処置の異なるステップ、及び/又は(ii)外科的処置又は医療処置のために医師又は病院によって使用されるツール又は製品をカタログ化するために使用され得る。場合によっては、NLPは、外科的処置におけるステップのタイミング、又は様々なツール、製品、又は医療器具の使用量又は使用頻度に関するデータ(例えば統計)を生成又は編集するために使用され得る。場合によっては、NLPは、例えば、NLPを使用して識別された異なる処置又は処置ステップの成功率及び/又は失敗率を決定するために使用され得る。他の場合、NLPは、NLPを用いて識別された特定のツール又は製品を用いて行われる様々な処置の成功率及び/又は失敗率を決定するために使用され得る。
[0079] 場合によっては、1つ又は複数のマイクロフォンは、関心対象の人物の声及び/又は関心対象の人物の声の活性度を検出し、(i)関心対象の人物の声又は声の活性度の検出と、(ii)関心対象の人物に割り当てられた優先順位レベルとに基づいて、関心対象の人物によって行われた音声通信の検出に優先順位を付けるように構成され得る。例えば、1つ又は複数のマイクロフォンが関心対象の人物の声又は声の活性度を検出しない場合、1つ又は複数のマイクロフォンは、複数の関係者によって行われた音声通信に優先順位を付けなくてもよいし、又は付ける必要もない。しかしながら、1つ又は複数のマイクロフォンが関心対象の人物の声又は声の活性度を検出した場合、1つ又は複数のマイクロフォンは、関心対象の人物によって行われた音声通信を、より低い優先順位が割り当てられた他の人物又は関心対象の人物によって行われた他の音声通信よりも優先し得る。
[0080] 場合によっては、本開示のシステム及び方法は、1人又は複数人の関心対象の人物の検出された位置又は位置に基づいて、本明細書に記載されるビーム形成能力を調整するように実施され得る。例えば、1つ又は複数のマイクロフォンの指向性又は方向性が第1の検出範囲又は領域に対応し、1人又は複数人の関心対象の人物の場所又は位置が第2の検出範囲又は領域への指向性又は方向性の調整を必要とする場合、1つ又は複数のマイクロフォンの指向性又は方向性は、第2の検出範囲又は領域に対応するように修正又は調整され得る。第1の検知範囲又は領域と第2の検知範囲又は領域は重複していてもよいし、又は部分的に重複していてもよい。場合によっては、第1の検出範囲又は領域と第2の検出範囲又は領域は異なっていてもよい。1つ又は複数のマイクロフォンの指向性又は方向性を調整することは、ビームステアリングの1つ又は複数の態様を含み得る。
[0081] 場合によっては、本開示のシステム及び方法は、発話検出を容易にするために実施され得る。発話検出は、音声記録装置(例えば、マイクロフォン又はマイクロフォンのアレイ)によって受信された1つ又は複数の音声通信に基づいて、発話又は他の音声通信の有無を検出すること、又は話者を識別することを含み得る。場合によっては、発話検出は、医療オペレータ、医師、外科医、医療スタッフ、及び/又は任意の関心対象の人物によって話される重要なキーワード又はセンテンスを検出又は識別することを含み得る。場合によっては、このような発話検出は、1人又は複数人の個人によって話された重要なキーワード、フレーズ、又はセンテンスに少なくとも部分的に基づいて、1人又は複数人の個人の優先順位を変更又は調整するために使用され得る。
[0082] 場合によっては、1人又は複数人の個人の優先順位は、1人又は複数人の個人によって話された特定のワード、フレーズ、又はセンテンスに基づいて調整され得る。上述したように、個人に割り当てられた優先順位は、近くにいる可能性のある他の人物よりも、それらの個人によって行われた音声通信の検出を優先するために使用され得る。場合によっては、1人又は複数人の個人は、優先順位リストに記載されている少なくとも1人の人物を含み得る。他の場合には、1人又は複数人の個人は、優先順位リストに記載されていない少なくとも1人の人物を含み得る。このような場合、優先順位リストに載っていない個人が、1つ又は複数の重要なキーワード、フレーズ、又はセンテンスを含む発言をすると、そのような個人が優先順位リストに追加され得る。さらに、優先順位リスト上の他の個人の優先順位は、優先順位リストへの別の個人の追加に対応するように調整され得る。
[0083] 図3は、音声通信の検出に優先順位を付けるために使用され得る優先順位リスト300の一例を示す。一例では、複数の個人が手術室に存在することがある。複数の個人は、複数の音声源(例えば、源1、源2、源3、源4)として扱われ得る。優先順位リスト300は、本明細書に記載される音声記録装置が、より高い優先順位を有する音声源からの音声通信の検出を優先するように、各音声源に優先順位を割り当て得る。例えば、優先順位リストが、源1を最も高い優先順位で指定し、源2を2番目に高い優先順位で指定し、源3を3番目に高い優先順位で指定し、源4を最も低い優先順位で指定する場合、音声検出装置の1つ又は複数は、源2、源3、及び/又は源4からの音声通信よりも源1からの音声通信を優先するように構成され得る。
[0084] 場合によっては、優先順位リストは発話の内容に基づいて調整され得る。例えば、源2が1つ又は複数のキーワード、フレーズ、又はセンテンスを通信する場合、源2は、少なくとも所定の期間、源1よりも優先され得る。他の場合には、別の個人が他の音声源よりも優先順位付けを必要とする音声通信を行ったときに、優先順位リストは別の源(例えば、源5)を含むように調整され得る。
[0085] 図4は、音声検出装置のために生成され得る1つ又は複数のビーム410-1、410-2を示す。本明細書で使用する場合、音声検出装置は音声記録装置と交換可能に呼ばれることがある。音声検出装置は、例えば、音声通信を検出、記録、及び/又は受信するための1つ又は複数のマイクロフォン又はマイクロフォンアレイを備え得る。1つ又は複数のビーム410-1、410-2は、異なる検出領域及び/又は異なる検出範囲に対応し得る。場合によっては、1つ又は複数のビーム410-1、410-2の向き及び/又は角度範囲は、複数の音声源420-1、420-2によって行われる複数の音声通信のうちの1つ又は複数の音声通信に優先順位を付けるように調整され得る。このような優先順位付けは、例えば、優先順位リスト又は優先順位リストへの変更;特定のキーワード、フレーズ、又はセンテンスの認識;及び/又は特定の個人によってなされた特定の声又は発話の識別;に応答し得る。
[0086] 図5は、音声通信を検出して向上させるための例示的なシステムを示す。このシステムは、1つ又は複数の音声源501-1、501-2から発信される音声通信を検出するように構成された音声検出装置500を備え得る。音声検出装置500は、音声通信を受信し、本明細書に記載される音声向上方法のいずれかを使用して音声通信を向上させるように構成される音声向上モジュール510に音声通信を伝送するように構成され得る。音声向上モジュール510は、向上された音声通信を、スピーカなどの出力モジュール又は装置520に伝送するようにさらに構成され得る。場合によっては、スピーカは、手術室又は医療施設内に配置されたコンピューティングデバイスに統合され得る。他の場合には、スピーカは、手術室又は医療施設から離れたコンピューティングデバイスに統合され得る。場合によっては、向上された音声通信は、手術室又は医療施設にいる個人に提供され得る。他の場合には、向上された音声通信は、外科的処置又は外科的処置を行っている外科オペレータを支援するために向上された音声通信を使用するように構成されている医療装置又はロボットに提供され得る。
[0087] 本明細書に記載される実施形態のいずれかにおいて、機械学習が、優先順位の高い音声通信の検出を改善するために、本開示の音声向上システムを訓練するために使用され得る。場合によっては、優先順位の高い音声通信に対応する1つ又は複数のデータセットが機械学習モジュールに提供され得る。機械学習モジュールは、データセットに基づいて機械学習データを生成するように構成され得る。1つ又は複数のデータセットは、1つ又は複数の機械学習アルゴリズムの訓練データセットとして使用され得る。学習データは、データセットに基づいて生成され得る。いくつかの実施形態において、教師付き学習アルゴリズムが使用され得る。任意選択的に、学習データを生成するために、教師なし学習技法及び/又は半教師付き学習技法が利用され得る。学習データは、優先順位の高い音声通信を検出及び/又は認識するために有用であり得る。学習データは、優先順位の高い音声通信を検出及び/又は認識するために、機械学習モジュール及び/又は機械学習アルゴリズムを訓練するために使用され得る。場合によっては、機械学習アルゴリズムを使用して音声向上システムによって検出された1つ又は複数の優先順位の高い音声通信に関連するデータは、機械学習アルゴリズムを改善するために学習データセットにフィードバックされ得る。
[0088] いくつかの実施形態において、機械学習モジュールは、1つ又は複数のニューラルネットワークを利用し得る。1つ又は複数のニューラルネットワークは、例えば、ディープ畳み込みニューラルネットワークを含み得る。機械学習は、任意のタイプの畳み込みニューラルネットワーク(CNN)を利用し得る。シフト不変又はスペース不変ニューラルネットワーク(SIANN)が同じく利用され得る。画像分類、物体検出、及び/又は物体位置測定が同じく利用され得る。いくつかの実施形態において、ニューラルネットワークは、畳み込みニューラルネットワーク(CNN)を備え得る。CNNは、例えば、U-Net、ImageNet、LeNet-5、AlexNet、ZFNet、GoogleNet、VGGNet、ResNet18、又はResNet等であり得る。場合によっては、ニューラルネットワークは、例えば、ディープ順伝播型ニューラルネットワーク(deep feed forward neural network)、回帰型ニューラルネットワーク(RNN:recurrent neural network)、LSTM(Long Short Term Memory:長・短期記憶)、GRU(Gated Recurrent Unit:ゲート付き回帰型ユニット)、オートエンコーダ、変分オートエンコーダ、敵対的(adversarial)オートエンコーダ、ノイズ除去オートエンコーダ、スパースオートエンコーダ、ボルツマンマシン、RBM(Restricted BM:制限付きBM)、ディープビリーフ(deep belief)ネットワーク、敵対的生成ネットワーク(GAN:generative adversarial network)、ディープ残差ネットワーク、カプセルネットワーク、注意/変換ネットワーク等であり得る。いくつかの実施形態において、ニューラルネットワークは、1つ又は複数のニューラルネットワーク層を含み得る。ニューラルネットワークは、少なくとも約2~1000以上のニューラルネットワーク層を有し得る。場合によっては、機械学習アルゴリズムは、例えば、ランダムフォレスト、ブースト決定木、分類木、回帰木、バギング木(bagging tree)、ニューラルネットワーク、又はローテーションフォレストを実装し得る。
[0089] 一態様において、本開示は、本開示の方法、例えば、音声通信を向上させるための主題の方法のいずれかを実施するようにプログラムされるか、又は他の方法で構成されるコンピュータシステムを提供する。図6は、音声通信を向上させるための方法を実施するようにプログラムされるか、又は他の方法で構成されるコンピュータシステム601を示す。コンピュータシステム601は、例えば、(a)医療処置に関連する1つ又は複数のパラメータと、医療処置に関連する1つ又は複数の音声通信とを検出し、(b)1つ又は複数のパラメータに基づいて1つ又は複数の音声通信を処理して、1つ又は複数の向上された音声通信を生成するように構成され得る。コンピュータシステム601は、ユーザの電子デバイス又は電子デバイスに対して遠隔に位置するコンピュータシステムとすることができる。電子デバイスは、モバイル電子デバイスであり得る。
[0090] コンピュータシステム601は、中央処理装置(CPU、本明細書では「プロセッサ」及び「コンピュータプロセッサ」とも呼ぶ)605を備えてもよく、これは、シングルコアプロセッサ若しくはマルチコアプロセッサ、又は並列処理用の複数のプロセッサとすることができる。コンピュータシステム601はまた、メモリすなわち記憶場所610(例えば、ランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ)、電子記憶ユニット615(例えば、ハードディスク)、1つ又は複数の他のシステムと通信するための通信インターフェース620(例えば、ネットワークアダプタ)、並びに、キャッシュ、他のメモリ、データ記憶装置、及び/又は電子表示アダプタなどの周辺装置625を備える。メモリ610、記憶ユニット615、インターフェース620、周辺装置625は、マザーボードなどのコミュニケーションバス(実線)を介して、CPU605と通信する。記憶ユニット615は、データを記憶するためのデータ記憶ユニット(又は、データリポジトリ)とすることができる。コンピュータシステム601は、通信インターフェース620を用いて、コンピュータネットワーク(「ネットワーク」)630に、適切に動作するよう結合することができる。ネットワーク630は、インターネット、相互接続ネットワーク及び/又はエクストラネット、又はインターネットと通信するイントラネット及び/又はエクストラネットとすることができる。ネットワーク630は、場合によっては、電気通信ネットワーク及び/又はデータネットワークである。ネットワーク630は、クラウドコンピューティングなどの分散コンピューティングを可能にし得る、1つ又は複数のコンピュータサーバを含み得る。ネットワーク630は、場合によっては、コンピュータシステム601の助けを借りて、ピアツーピアネットワークを実装することができ、これにより、コンピュータシステム601に結合された装置がクライアント又はサーバとして動作することを可能にし得る。
[0091] CPU605は、一連の機械読取り可能な命令を実行することができ、この命令は、プログラム又はソフトウェアで実施することができる。この命令は、メモリ610などの記憶場所に記憶されてもよい。命令は、CPU605を対象とすることができ、続いて、CPU605をプログラムするか、又は他の方法で構成して、本開示の方法を実装することができる。CPU605が実行する演算の例には、フェッチ、復号、実行、及びライトバックが含まれ得る。
[0092] CPU605は、集積回路などの回路の一部分とすることができる。システム601の1つ又は複数の他の構成部品を、この回路内に含むことができる。場合によっては、この回路は、特定用途向け集積回路(ASIC)である。
[0093] 記憶ユニット615は、ドライバ、ライブラリ、保存済みプログラムなどのファイルを記憶することができる。この記憶ユニット615は、ユーザデータ、例えば、ユーザの好み及びユーザプログラムを記憶することができる。場合によっては、コンピュータシステム601は、コンピュータシステム601の外部(例えば、イントラネット又はインターネットを介してこのコンピュータシステム601と通信する遠隔サーバ)に位置する1つ又は複数の追加のデータ記憶ユニットを含むことができる。
[0094] コンピュータシステム601は、ネットワーク630を介して、1つ又は複数の遠隔コンピュータシステムと通信することができる。例えば、このコンピュータシステム601は、ユーザ(例えば、医療オペレータ、医療アシスタント、又は医療オペレーションを監視する遠隔観察者)の遠隔コンピュータシステムと通信することができる。遠隔コンピュータシステムの例には、パーソナルコンピュータ(例えば、ポータブルPC)、スレートPC若しくはタブレットPC(例えば、Apple(登録商標)iPad、Samsung(登録商標)Gala6 Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone、アンドロイド対応装置、Blackberry(登録商標))、又は携帯型情報端末が含まれる。ユーザは、ネットワーク630を介してコンピュータシステム601にアクセスすることができる。
[0095] 本明細書に記載の方法は、例えば、メモリ610又は電子記憶ユニット615など、コンピュータシステム601の電子記憶場所に記憶される、機械(例えば、コンピュータプロセッサ)実行可能コードによって実施することができる。この機械実行可能コード又は機械読取り可能なコードは、ソフトウェアの形で提供することができる。使用中、プロセッサ605によって、このコードを実行することができる。場合によっては、このコードを、記憶ユニット615から取り出し、プロセッサ605が素早くアクセスできるよう、メモリ610に記憶することができる。状況によっては、電子記憶ユニット615を除外することができ、機械実行可能命令がメモリ610に記憶される。
[0096] コードを、事前コンパイルし、このコードを実行するようになされたプロセッサを有する機械とともに使用するように構成することができ、又はランタイム中にコンパイルすることもできる。コードは、事前コンパイルされたように又はコンパイルされたとおりにこのコードを実行できるように選択することができる、プログラミング言語に入れ込むことができる。
[0097] コンピュータシステム601など、本明細書に提示されるシステム及び方法の各態様は、プログラミングで実施することができる。この技術の様々な態様は、典型的には、機械(又はプロセッサ)実行可能なコード、及び/又はあるタイプの機械読取り可能な媒体で搬送若しくは実施される関連データの形での「製品」又は「製造品」と考えてもよい。機械実行可能コードは、メモリ(例えば、リードオンリーメモリ、ランダムアクセスメモリ、フラッシュメモリ)又はハードディスクなどの電子記憶ユニットに記憶することができる。「記憶」タイプの媒体には、コンピュータ、プロセッサなどの有形メモリ、又はその関連モジュール、例えば、様々な半導体メモリ、テープドライブ、ディスクドライブなどの一部又は全部を含むことができ、これらはソフトウェアプログラミング用に非一時的な記憶装置をいつでも提供することができる。ソフトウェアの全部又は一部は、時として、インターネット又は他の様々な通信ネットワークを介して伝達されてもよい。例えば、このような通信により、あるコンピュータ又はプロセッサから別のコンピュータ又はプロセッサに、例えば管理サーバ又はホストコンピュータからアプリケーションサーバのコンピュータプラットフォームに、ソフトウェアをロードすることが可能になってもよい。したがって、ソフトウェア要素を搭載してもよい別のタイプの媒体には、ローカルデバイス間の物理的インターフェース、有線及び光学的な陸上通信ネットワーク、並びに様々な空中リンクなどを介して使用される、光波、電波、及び電磁波が含まれる。有線リンク又は無線リンク、光リンクなど、このような波を運ぶ物理的要素も、ソフトウェアを搭載する媒体とみなしてもよい。本明細書では、非一時的で有形の「記憶」媒体に限定されない限り、コンピュータ又は機械の「読取り可能な媒体」などの用語は、実行するためプロセッサに命令を提供するのに関与する任意の媒体を指す。
[0098] したがって、コンピュータ実行可能コードなどの機械読取り可能な媒体は、有形の記憶媒体、搬送波媒体、又は物理的な伝送媒体を含む数多くの形態をとってもよいが、これらに限定されることはない。不揮発性の記憶媒体には、光若しくは磁気ディスク、又は、例えば、各図面に示すデータベースなどを実施するのに使用されてもよい、任意のコンピュータ等内の任意の記憶装置が含まれる。揮発性の記憶媒体には、このようなコンピュータプラットフォームの主記憶装置などのダイナミックメモリが含まれる。有形の伝送媒体には、コンピュータシステム内のバスを備えるワイヤを含め、同軸ケーブル、銅線、及び光ファイバが含まれる。搬送波伝送媒体は、無線周波数(RF)及び赤外線(IR)のデータ通信中に生成されるような、電気信号若しくは電磁信号、又は音波若しくは光波の形をとってもよい。したがって、コンピュータ読取り可能な媒体の共通の形態には、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の任意の磁気媒体、CD-ROM、DVD若しくはDVD-ROM、他の任意の光媒体、せん孔カード用紙テープ、孔のパターンを有する他の任意の物理記憶媒体、RAM、ROM、PROM、及びEPROM、フラッシュEPROM、他の任意のメモリチップ若しくはカートリッジ、データ若しくは命令を搬送する搬送波、このような搬送波を搬送するケーブル若しくはリンク、又はコンピュータがプログラミングコード及び/又はデータを読取ることができる他の任意の媒体が含まれる。こうした形態のうち多くのコンピュータ読取り可能な媒体は、1つ又は複数の命令の1つ又は複数のシーケンスを、実行するためにプロセッサに搬送する働きをしてもよい。
[0099] コンピュータシステム601は、例えば、医療ワーカが(i)医療処置中に行われた1つ又は複数の音声通信の検出を監視し、(ii)1つ又は複数の音声通信を処理するように構成された音声向上モジュールから1つ又は複数の向上された音声通信を受信するためのポータルを提供するためのユーザインターフェース(UI)640を含む電子ディスプレイ635を含むか、又はそれと通信することができる。ポータルは、アプリケーションプログラミングインターフェース(API)を介して提供され得る。ユーザ又はエンティティは、UIを介してポータル内の様々な要素と相互作用することもできる。UIの例には、限定されないが、グラフィカルユーザーインターフェース(GUI)及びウェブベースのユーザインターフェースが含まれる。
[00100] 本開示の方法及びシステムは、1つ又は複数のアルゴリズムによって実装することができる。アルゴリズムは、中央処理装置605による実行時にソフトウェアの方法で実装され得る。例えば、アルゴリズムは、(a)医療処置に関連する1つ又は複数のパラメータ、及び医療処置に関連する1つ又は複数の音声通信を検出し、(b)1つ又は複数のパラメータに基づいて1つ又は複数の音声通信を処理して、1つ又は複数の向上された音声通信を生成するように構成され得る。
[00101] 別の態様において、本開示は、音声ビーム選択のためのシステム及び方法を提供する。外科的処置のライブストリーム又は外科的処置の録画を視聴する1人又は複数人の個人は、複数の異なる音声ビーム又は音声チャンネルから関心のある1つ又は複数の音声ビーム又は音声チャンネルを選択し得る。関心のある音声ビーム又は音声チャンネルは、外科的処置を支援又は視聴する異なる個人(例えば、異なる専門医、医師、又は遠隔の販売業者の代表者)に対応し得る。場合によっては、関心のある音声ビーム又は音声チャンネルは、様々な異なる手術ツール又は器具の使用又は操作に対応し得る。場合によっては、複数の音声ビーム又は音声チャンネルは、進行中の外科的処置の異なる眺め又は異なるフェーズを捕捉している複数の異なるカメラに関連付けられ得る。
[00102] 場合によっては、複数のカメラが、医療施設に設置された医療コンソールに接続されるか、又は動作可能に結合され得る。複数のカメラは、進行中の外科的処置の複数の眺めを提供するように構成され得る。複数のカメラは、それぞれ、複数のカメラを使用して捕捉された画像又は動画を増強するための1つ又は複数の音声記録又は検出装置(例えば、マイクロフォン)を有し得る。複数のカメラは、手術シーンの画像又は動画を捕捉するために使用されてもよく、画像又は動画は、関連する音声とともに、ライブストリームを通じて、又は動画録画の形態で、1人又は複数人の個人に提供されてもよい。このような動画録画は、動画が録画された後、1人又は複数人の個人がいつでも動画にアクセスできるように、ライブラリ又はサーバ(例えば、クラウドサーバ)に保存され得る。
[00103] 場合によっては、1人又は複数人の個人が同時に外科的処置のフェーズをマークし、外科的処置のフェーズに関連する音声を選択又は抽出し得る。これにより、個人は、外科的処置の動画に関連付けられた音声の一部のみを聞くことが可能になり得る。個人はそれぞれ、関心のある異なるフェーズを選択し、外科的処置の異なるフェーズに関連する異なる音声クリップを聞くことができる。場合によっては、複数の個人が、関心のある同じフェーズを選択し、外科的処置の異なる眺め、異なる外科用器具の使用又は操作、及び/又は外科的処置を支援する、又は外科的処置の実行に関連する音声解説を提供する異なる話者に関連する異なる音声クリップを聴くことができる。
[00104] 場合によっては、個人は、特定の器具、特定の専門医、又は特定の医師に関連する音声通信にのみ関心を持つことがある。本開示のシステム及び方法は、第1の個人が第1の話者による音声通信を聴くこと、及び第2の個人が第2の話者による音声通信を聴くことを可能にし得る。場合によっては、第1の個人は、第1の器具又は第1の医師若しくは専門医に関連する音声通信を聴くことができ、第2の個人は、第2の器具又は第2の医師若しくは専門医に関連する音声通信を聴くことができる。第1の個人及び/又は第2の個人は、例えば、遠隔の専門医、販売業者の代表者、医師、外科医、手術助手、医療ワーカ、医学研修医、医療インターン、医学生、又は外科的処置を観ること及び/又は外科的処置に関連する音声通信を聴くことに関心のある他の任意の個人(例えば、外科的処置を受ける被験者の友人又は家族)であり得る。第1の話者及び/又は第2の話者は、例えば、遠隔の専門医、販売業者の代表者、医師、外科医、手術助手、又は医療ワーカであり得る。
[00105] 場合によっては、複数の個人が、音声装置又は音声チャンネルのマスターリストから所望の音声ビーム又はチャンネルを選択することによって、関心のある音声ビーム又はチャンネルを選択してもよい。音声装置又は音声チャンネルのマスターリストは、外科的処置ごとに生成することができる。このリストは、手動で編集することもできるし、又は外科的処置中に音声通信を記録するために使用されている1つ又は複数の音声記録装置の検出に基づいて自動的に生成することもできる。
[00106] 他の場合には、複数の個人が、関心のある器具、専門医、医師、外科医、又は手術フェーズを選択することによって、関心のある音声ビーム又はチャンネルを選択し得る。このような場合、関連する音声ビーム又はチャンネルを抽出するために、手術動画の後処理が実行され得る。例えば、第1の個人は、手術動画を閲覧し、関心のある特定の器具、専門医、医師、外科医、又は手術フェーズを選択し得る。1つ又は複数のプロセッサを使用して、手術動画を後処理して、第1の個人によって選択された関心のある特定の器具、専門医、医師、外科医、又は手術フェーズに関連する関連音声通信を抽出することができる。並行して、第2の個人は、同じ手術動画を閲覧し、関心のある特定の器具、専門医、医師、外科医、又は手術フェーズを選択し得る。1つ又は複数のプロセッサを使用して、手術動画を後処理して、第2の個人によって選択された関心のある特定の器具、専門医、医師、外科医、又は手術フェーズに関連する関連音声通信を抽出することができる。
[00107] 本明細書で使用される際、後処理は、複数のチャンネルから音声を受信することと、個人によって提供された選択又は入力に基づいて、関心のある特定の音声ストリーム又はチャンネルを決定又は抽出することとを含み得る。選択又は入力は、関心のある特定の器具、専門医、医師、外科医、又は手術フェーズに関するものであり得る。選択又は入力は、物理的な入力(例えば、手術動画内の特定の話者又は特定の器具をクリックすること)を含み得る。
[00108] 場合によっては、複数のストリームから関心のある1つ又は複数の音声ストリームを抽出するために、メタデータが追跡され得る。メタデータは、関心のある1つ又は複数の音声ストリームを、関心のある特定の器具、専門医、医師、外科医、又は手術フェーズに関連付ける情報を含み得る。メタデータは、例えば、コンピュータビジョン技術、又は1つ又は複数の機械学習若しくは分類アルゴリズムを使用して、関心のある様々な器具、専門医、医師、外科医、又は手術フェーズの識別又は検出に基づいて生成され得る。
[00109] 場合によっては、関心のある特定の音声チャンネル又は音声ストリームが識別及び選択されると、本開示のシステム及び方法は、関心のある音声チャンネル又は音声ストリームを増幅するために使用され得る。さらに、本開示のシステム及び方法は、関心のない他の音声チャンネル又は音声ストリームを減衰させるために使用され得る。増幅又は減衰のレベルは、例えば、ユーザの好み又はユーザによって提供された入力に基づいて調整され得る。
[00110] 場合によっては、1人又は複数人のユーザが、複数の音声ストリーム又はチャンネルから1つ又は複数の特定の音声ストリーム又はチャンネルに自動的に割り当てられ得る。ユーザは、例えば、ユーザのID又は役割に基づいて、特定の音声ストリーム又はチャンネルのセットに割り当てられ得る。いくつかの例では、第1のユーザ(例えば、製品サポート専門家)が第1の音声ストリーム又はチャンネルに自動的に割り当てられ、第2のユーザ(例えば、コンサルティング医師)が第2の音声ストリーム又はチャンネルに自動的に割り当てられ得る。第1の音声ストリーム又はチャンネルは、製品サポート専門家が精通している及び/又は知識を有する1つ又は複数の製品(例えば、ツール、器具、装置、又はシステム)に関連する音声通信を含み得る。場合によっては、第1の音声ストリーム又はチャンネルは、製品サポート専門家が精通している及び/又は知識を有する1つ又は複数の製品の使用法に関連する音声通信を含み得る。第1の音声ストリーム又はチャンネルは、製品サポート専門家が1つ又は複数の製品を適切に又は効果的に準備又は使用する方法について専門的な指導を提供できるように、製品サポート専門家に1つ又は複数の製品のID又は使用に関する情報を提供する音声通信を含み得る。第2の音声ストリーム又はチャンネルは、例えば、外科的処置の別の態様に関連する音声通信(例えば、外科的処置の1つ又は複数のステップの実行に関連する音声通信、又は医学的若しくは外科的手技を含む外科的処置の処置的態様に関連する音声通信)を含み得る。第2の音声ストリーム又はチャンネルは、コンサルティング医師が外科的処置の1つ又は複数のステップを適切に又はより効果的に実行する方法について専門的な指導を提供できるように、外科医がどのように処置を実行しているかについての情報をコンサルティング医師に提供する音声通信を含み得る。場合によっては、第1及び第2の音声ストリーム又はチャンネルは、同一又は類似の音声コンテンツを含み得る。他の態様では、第1及び第2の音声ストリーム又はチャンネルは、異なる音声コンテンツを含み得る。異なる音声コンテンツは、異なる個人によって行われる音声通信、又は外科的処置の異なる側面若しくは部分に関連する音声通信を含み得る。
[00111] 場合によっては、1つ又は複数の音声ストリームが、ユーザのID、ユーザの役割、又は音声ストリームのコンテンツに基づいて、複数の音声ストリームから自動的にフィルタリングされ、特定のユーザ又はユーザの特定のサブセットに提示され得る。他の場合、1つ又は複数の音声ストリームの特定のユーザ又はユーザのサブセットへのフィルタリング及び割り当ては、調整又は変更され得る。例えば、1人又は複数人のユーザが、自動的に割り当てられていない様々な音声ストリーム又はチャンネルを聴きたい場合、1人又は複数人のユーザは、関心のある他の音声ストリーム又はチャンネルを変更又は追加するために、1つ又は複数の入力を提供し得る。場合によっては、ユーザは、もはや関心のない音声ストリーム又はチャンネルを変更又は削除するための入力も提供し得る。入力は、例えば、1つ又は複数の音声ストリームの手動による選択又は削除を含み得る。場合によっては、このような音声ストリームの手動による選択又は削除は、音声ストリーム又はチャンネルのマスターリストに関して、又はマスターリストを参照して行われ得る。場合によっては、入力は、音声チャンネル又はストリームのユーザへの最初の自動割り当てを行うために使用される1つ又は複数のパラメータ又は要因を変更するために分析され、使用され得る。場合によっては、音声チャンネル又はストリームの選択又は割り当ては、特定のユーザによって直接変更され得る。他の場合、音声チャンネル又はストリームの選択又は割り当ては、処置が行われている医療施設によって変更され得る。このような場合、様々なユーザへの音声チャンネル又はストリームの割り当て又は選択は、医療施設によって管理され、医療施設又は様々なユーザへの音声チャンネル又はストリームの割り当て及び伝送に関連する許可を管理する1つ又は複数のエンティティによって提供される許可又は承認に基づいて調整又は変更され得る。
[00112] 図7は、複数の音声チャンネル710に関連付けられる複数の音声源701を概略的に示す。複数の音声源701は、例えば、源1、源2、源3、源4等を含み得る。複数の音声チャンネル710は、例えば、チャンネル1、チャンネル2、チャンネル3、チャンネル4等を含み得る。複数の音声源701は、複数の音声チャンネル710のうちの1つ又は複数にマッピングされ得る。複数の音声チャンネル710は、1人又は複数人のユーザの機能、役割、専門性、専門知識、又はIDに基づいて、1人又は複数人のユーザに自動的に割り当てられ得る。1人又は複数人のユーザは、複数の音声チャンネル710のサブセットへのアクセスを有し得る。場合によっては、異なるユーザが異なる音声チャンネルに接続できることもある。例えば、ユーザAは、音声源1に対応する音声チャンネル1に接続し、ユーザBは、音声源2に対応する音声チャンネル2に接続し、ユーザCは、音声源3に対応する音声チャンネル3に接続し、ユーザDは、音声源4に対応する音声チャンネル4に接続し得る。ユーザを特定のチャンネル又は音声源に割り当てることは、処置が行われている医療施設によって、医療施設の管理者又は従業員によって、又は処置に関連する1つ又は複数の音声ストリーム又はデータストリームを管理するサーバ又はエンティティによって管理され得る。
[00113] 図8に示すように、場合によっては、1人又は複数人のユーザは、関心のある特定の音声チャンネル又は音声チャンネルのセットを選択し得る。音声チャンネルの選択は、関心のある1つ又は複数の特定の音声源の選択に直接対応し得る。代替的に、音声チャンネルの選択は、関心のある1つ又は複数のパラメータ(例えば、関心のあるツール、関心のある手術フェーズ、関心のある医療技術、関心のある外科医又は医師等)に基づき得る。このような場合、1人又は複数人のユーザによって選択された関心のあるパラメータ又は関心のある音声チャンネルに対応する関心のある音声源を抽出するために、手術動画及び音声データの後処理を実行することができる。ある実施態様では、ユーザAは、関心のある音声チャンネルの第1のグループ711を選択し得、ユーザBは、関心のある音声チャンネルの第2のグループ712を選択し得る。音声チャンネルの第1のグループ711及び音声チャンネルの第2のグループ712は、関心のある異なるツール、関心のある異なる手術フェーズ、関心のある異なる医療技術、及び/又は関心のある異なる外科医又は医師に対応し得る。
[00114] 図9は、複数の音声源701又は音声チャンネル710から関心のある1つ又は複数の音声源又は音声チャンネルを選択するためのユーザインターフェース750の一例を概略的に示す。いくつかの例では、ユーザは、ユーザインターフェース750内の仮想要素と対話するための入力(例えば、タップ、タッチ、プレス、クリック等)を提供することによって、関心のある1つ又は複数の音声源701又は音声チャンネル710を手動で選択し得る。仮想要素は、例えば、ボタン、チェックボックス、又はラジオボタンを含み得る。場合によっては、ユーザインターフェース750は、ユーザが複数の異なる音声チャンネル又は関心のある音声源を一度に選択することを可能にし得る。
[00115] 図10は、複数の音声源701又は音声チャンネル710の後処理を実行して、様々なユーザに音声チャンネルのカスタマイズされた又は調整された選択を提供するように構成される音声管理システム720を概略的に示す。音声管理システム720は、1つ又は複数のプロセッサの助けを借りて実装され得る。音声管理システム720は、医療施設に設置されたコンピューティングデバイス又はサーバ(例えば、リモートサーバ又はクラウドサーバ)上に実装され得る。場合によっては、音声管理システム720は、第1の音声チャンネルセット740-1を第1のユーザBに提供し、第2の音声チャンネルセット740-2を第2のユーザBに提供するように構成され得る。音声管理システム720は、第1の音声チャンネルセット740-1及び第2の音声チャンネルセットを、ユーザのID、役割、専門知識、又は専門性に基づいて選択するように構成され得る。場合によっては、音声管理システム720は、ユーザによって提供された1つ又は複数の入力に基づいて、第1の音声チャンネルセット740-1及び第2の音声チャンネルセットを選択するように構成され得る。1つ又は複数の入力は、例えば、関心のある1つ又は複数のツール、関心のある1つ又は複数の手術フェーズ、関心のある1つ又は複数の医療技術、及び/又は関心のある1つ又は複数の外科医又は医師の選択を含み得る。
[00116] 図11は、ユーザによって提供される1つ又は複数の入力に基づいて、どの音声チャンネルがユーザに提供されるかを調整するように構成される音声管理システム720を概略的に示す。場合によっては、ユーザは1つ又は複数の入力730を音声管理システム720に提供し得る。1つ又は複数の入力730は、例えば、関心のある1つ又は複数のツール、関心のある1つ又は複数の手術フェーズ、関心のある1つ又は複数の医療技術、及び/又は関心のある1人又は複数人の外科医又は医師の選択を含み得る。音声管理システム720は、1つ又は複数の入力730を使用して、ユーザの関心のある様々なチャンネル740を識別するように構成され得る。関心のある様々なチャンネル740は、ユーザによって示された関心のある1つ又は複数のツール、関心のある1つ又は複数の手術フェーズ、関心のある1つ又は複数の医療技術、及び/又は関心のある1人又は複数人の外科医若しくは医師と関連付けられ得る。場合によっては、ユーザは異なる時間に異なる入力730を提供し得、音声管理システム720はそれに応じてチャンネルの選択を調整するように構成され得る。チャンネルの選択は、ユーザによって提供された1つ又は複数の入力730に対応する異なる音声源からの音声データを含み得る。
[00117] 図12は、関心のある様々なチャンネルを選択するための例示的なユーザインターフェース750を概略的に示す。場合によっては、ユーザは関心のある1つ又は複数のチャンネルを選択し得、音声管理システムは、ユーザによって選択された関心のある1つ又は複数のチャンネルに対応する1つ又は複数の音声源を提供するように構成され得る。このような提供は、本明細書の他の箇所で記載されるように、関心のある関連音声ストリームを抽出するために、音声データ又は動画データの後処理を含み得る。場合によっては、ユーザは、関心のある様々なフェーズ、関心のある様々な器具、及び/又は関心のある様々なオペレータを選択し得る。そのような選択に基づいて、音声管理システムは、ユーザによって選択された関心のある様々なパラメータに対応する1つ又は複数の音声源及び/又は1つ又は複数の音声チャンネルを提供するように構成され得る。いくつかの実施形態において、ユーザは、関心のある異なる器具、フェーズ、及びオペレータに対応する複数の選択を行ってもよく、音声管理システムは、ユーザによって行われた様々な選択に対応する複数の音声源及び/又は音声チャンネルを提供するように構成され得る。
[00118] 場合によっては、関心のある音声チャンネルは、外科的処置のフェーズ又はステージに応じて変化し得る。場合によっては、手術動画を観ている1人又は複数人の個人が、関心のある音声チャンネルを変更したり、2つ以上の音声チャンネルを切り替えたりすることがある。場合によっては、手術動画を観ている1人又は複数人の個人が、関心のある2つ以上の音声チャンネルを同時に聴くことがある。このような場合、音声チャンネルは、外科的処置の異なる特徴又は側面に関連することがある。例えば、第1の音声チャンネルは手術ツール又は器具に関連付けられ、第2の音声チャンネルは手術ツール又は器具を使用する外科医又は医師に関連付けられることがある。
[00119] 場合によっては、本開示のシステム及び方法は、複数の個人間の音声コラボレーションを許可又は可能にするように実施され得る。場合によっては、複数の個人が同時に外科的処置の動画を観ることがある。動画は、ライブストリーム動画又は録画された動画を含み得る。個人は、関心のある様々な音声ビーム又は音声チャンネルを個別に選択し、関心のある音声ビーム又は音声チャンネルを含む手術動画の修正バージョンを他の個人と共有し得る。場合によっては、第1の個人は、関心のある第1の音声ビーム又はチャンネルを含むように手術動画を修正し得、第2の個人は、関心のある第2の音声ビーム又はチャンネルも含むように手術動画をさらに修正し得る。場合によっては、第3の個人が、第1及び第2の音声ビーム又はチャンネルの両方を含む手術動画を観ることがあり、この手術動画は、ライブストリームを介して、又はサーバ(例えば、クラウドサーバ)を介して、第3の個人に共有されることがある。第1及び第2の音声ビーム又はチャンネルの両方を含む手術動画は、第3の個人に対して、外科的処置に関連する様々な器具、専門医、医師、外科医、眺め、又は手術フェーズに関する追加のコンテキストを提供し得る。
[00120] 場合によっては、複数の遠隔の販売業者又は専門家が、外科的処置の動画の様々な部分又はセクションに対して同時に音声解説を提供し得る。音声解説は、ガイダンス、支援、又は外科的処置の1つ又は複数のステップ若しくは側面の説明、評価、若しくは査定を含み得る。場合によっては、第1の個人が第1の音声解説を提供し、第2の個人が第2の音声解説を提供することがある。第1の音声解説は第1の音声チャンネルに関連付けられ、第2の音声解説は第2の音声チャンネルに関連付けられることがある。場合によっては、第1及び第2の個人の両方からの音声解説を含む手術動画は、第3の個人と共有されることがある。手術動画は、第1の音声解説を含む第1の音声チャンネルと、第2の音声解説を含む第2の音声チャンネルとを有し得る。場合によっては、第1及び第2の音声チャンネルの両方を含む手術動画は、手術動画を観る様々な個人が、外科的処置を実行するための異なるアプローチを比較及び対照することを可能にし得る。本明細書に記載される実施形態のいずれかにおいて、1人又は複数人のユーザ(例えば、遠隔の販売業者、専門家、外科医、医師、又は医療ワーカ)による音声解説は、手術動画に以前に関連付けられた任意の音声ストリーム又はチャンネルに代わって、又はこれに加えて提供され得る。
[00121] いくつかの実施形態において、1つ又は複数の音声通信が外科的処置中に行われることがある。1つ又は複数の音声通信は、例えば、器具(例えば、ECGモニタ、又は様々な生物学的信号若しくは生理学的信号を監視するための他の医療用ハードウェア)、ロボット(例えば、医療用ロボットシステム若しくは外科用ロボットシステム)、又は外科的処置を実行している若しくは補助している人間(例えば、1人又は複数人の外科医、医師、看護師、助手、及び/又は医療ワーカ)によって作られた音を含み得る。
[00122] 外科的処置中に行われる音声通信は、記録され及び/又は1人又は複数人のユーザに放送されることがある。場合によっては、音声通信は、放送事業者(本明細書では「パブリッシャ」とも呼ばれる)によって記録され、放送されることがある。音声通信は、外科的処置の1つ又は複数の画像又は動画とともに放送されることがある。
[00123] 場合によっては、放送事業者は、音声通信を複数の異なるユーザ(例えば、1つ又は複数の販売業者の代表者)に直接放送し得る。複数の異なるユーザのそれぞれは、放送事業者によって放送された音声通信を個別に修正し得る。音声通信を変更することは、例えば、上述のように関心のある様々な音声ストリーム又は音声チャンネルを選択又は向上させること、或いは1つ又は複数の音声ストリーム又はチャンネルを消去又はミュートすることを含み得る。場合によっては、各個人は、自分が受信する音声通信のみを変更し得る。例えば、第1のユーザが器具のビープ音を気が散る、又は煩わしいと感じた場合、第1のユーザは、(第1のユーザが気が散る、又は煩わしいと感じたビープ音を監視することに興味があるかもしれない)第2のユーザに放送される音声ストリーム又はチャンネルを変更することなく、そのようなビープ音に関連する音声ストリーム又はチャンネルをミュートすることができる。他の場合、各個人は、放送事業者から音声通信を受信している他の個人又はユーザのために音声通信を変更し得る。例えば、あるユーザが器具のビープ音を気が散る又は煩わしいと感じ、他のユーザもビープ音を気が散る又は煩わしいと感じるだろうとユーザが考える場合、ユーザは、様々な他のユーザのために(例えば、先制的な措置又は他のユーザに対する礼儀として)、そのようなビープ音に関連する音声ストリーム又はチャンネルをミュートすることができる。本開示のシステム及び方法は、各ユーザが自分自身のために、又は代替的に、放送事業者から音声通信を受信する他のすべての参加者のために特定のチャンネルをミュートすることを可能にするように実施され得る。場合によっては、本開示のシステム及び方法はまた、個々のユーザが、自分自身及び/又は放送事業者から音声通信を受信する他の参加者のために、特定のチャンネルを修正、向上、又はチューニングすることを可能にするように実施され得る。
[00124] 場合によっては、放送事業者は、緩和エンティティ(例えば、人間又はサーバ)に音声通信を放送し得る。緩和エンティティは、音声通信を受信し、1人又は複数人のユーザに放送される前に、音声通信を前処理又は修正するように構成され得る。例えば、緩和エンティティは、一般的に関心のある特定の音声通信を向上させ、及び/又は、関心又は重要性が低い他の音声通信をミュート又は排除し得る。場合によっては、緩和エンティティは、個人的又はプライベートな情報を明らかにする特定の音声通信、又は気が散る又は煩わしい音声通信をミュート又は排除し得る。緩和エンティティによって修正された音声通信は、1人又は複数人のユーザに伝送される場合があり、ユーザはそれぞれの好みに合わせて音声通信をさらに修正し得る。場合によっては、緩和エンティティは、異なるユーザ又はユーザのサブセットに対して異なる方法で、放送事業者によって放送された音声通信を前処理又は修正し得る。例えば、緩和エンティティは、第1のサブセットのユーザに対して第1の音声チャンネルのセットを向上及び/又は排除することができ、第2のサブセットのユーザに対して第2の音声チャンネルのセットを向上及び/又は排除することができる。いずれの場合も、第1及び第2のサブセットのユーザは、個々のニーズ及び/又は好みに基づいて、受信する音声通信をさらにチューニングし得る。
[00125] 場合によっては、放送事業者は、1人又は複数人のユーザ及び/又は放送事業者と1人又は複数人のユーザとの間の緩和エンティティに放送される音声通信を修正し得る。上述したように、音声通信を修正することは、関心のある様々な音声ストリーム又は音声チャンネルを選択し又は向上させること、又は1つ又は複数の音声ストリーム又はチャンネルを排除又はミュートすることを含み得る。緩和エンティティ及び/又は1人又は複数人のユーザは、放送事業者によって修正された音声通信にさらなる修正を施し得る。場合によっては、放送事業者は、ユーザのID、役割、専門知識、又は専門性に基づいて、ユーザの異なるサブセットに対して異なる音声チャンネルを向上させ、及び/又は排除し得る。放送事業者は、どの音声チャンネル又はストリームが緩和エンティティ又は1人又は複数人のユーザに放送されるかを制御し得る。
[00126] 場合によっては、個々のユーザ、視聴者、緩和者、又は遠隔専門家は、どの音声ストリームを向上するか、又は排除するかを選択することができる。場合によっては、個々のユーザ、視聴者、緩和者、又は遠隔専門家は、すべての参加者について、どの音声ストリームを向上又は排除するかを選択することができる。他の場合、個々のユーザ、視聴者、緩和者、又は遠隔専門家は、自分が受信した、受信している、又は受信する予定の音声ストリームのみを変更することができる。
[00127] 音声チューニングは、放送事業者、遠隔の販売業者の代表者、及び/又は個々の視聴者によって実行され得る。何らかの理由で(例えば、周囲の雑音やその他の聴覚障害に起因して)音声が明瞭でない場合、音声は個人の好みに合わせてチューニングされ得る。場合によっては、音声は1つ又は複数の音声最適化アルゴリズムを使用して自動的にチューニングされ得る。他の場合、音声は1人又は複数人のユーザによって手動でチューニングされ得る。音声チューニングは、例えば、1つ又は複数の音声通信の音量を上げる又は下げること、1つ又は複数の音声チャンネルの速度を上げる又は下げること、1つ又は複数の音声通信のピッチ、トーン、音色、リズム、又は低音レベルを変更すること、様々な周波数又は周波数範囲をフィルタリング除去すること、又は他の方法で実際の音声信号を修正することを含み得る。場合によっては、音声チューニングは、音声通信を聴くときに存在する周囲の雑音、静寂、残響、及び/又はエコーを低減するために使用され得る。場合によっては、音声チューニングは、言葉の明瞭度を改善し、視聴者及び聴取者の疲れを減少させるために、特定の音声信号又は音声信号の特定の周波数をブーストすることを含み得る。
[00128] 図13は、1つ又は複数の音声チャンネルを放送するように構成された放送事業者1310を概略的に示す。放送事業者1310は、複数の音声チャンネル(例えば、チャンネル1、チャンネル2、チャンネル3、及びチャンネル4)を緩和エンティティ1320に放送し得る。場合によっては、放送事業者1310は、緩和エンティティ1320に伝送する音声チャンネルの特定のサブセットを選択し得る。緩和エンティティ1320は、音声チャンネルが1人又は複数人のユーザ又は視聴者に伝送される前に、音声チャンネルの1つ又は複数を向上させるように構成され得る。緩和エンティティ1320は、放送事業者1310から受信された音声チャンネルのうちの1つ又は複数をミュートするように構成され得る。例えば、緩和エンティティ1320は、放送事業者1310から複数のチャンネル(例えば、チャンネル1、チャンネル2、チャンネル3、及びチャンネル4)を受信し、複数のチャンネルのサブセット(例えば、チャンネル1、チャンネル2、及びチャンネル3)をユーザA及びユーザBに伝送し得る。
[00129] 図14は、1つ又は複数の音声チャンネルを放送するように構成された放送事業者1310を概略的に示す。放送事業者1310は、複数の音声チャンネル(例えば、チャンネル1、チャンネル2、チャンネル3、及びチャンネル4)を緩和エンティティ1320に放送し得る。緩和エンティティ1320は、音声チャンネルの第1のサブセット(例えば、チャンネル1及びチャンネル2)を第1のユーザに選択的に伝送し、音声チャンネルの第2のサブセット(例えば、チャンネル3及びチャンネル4)を第2のユーザに選択的に伝送するように構成され得る。場合によっては、緩和エンティティ1320は、修正された音声通信をユーザに伝送する前に、(例えば、ユーザの好み、ユーザのID若しくは専門知識に基づいて、又は様々なユーザに付与された1つ又は複数の許可に基づいて)特定のユーザに対して特定の音声チャンネルを選択的に向上又はミュートするように構成され得る。
[00130] 図15は、1つ又は複数の音声チャンネルを放送するように構成された放送事業者1310を概略的に示す。放送事業者1310は、緩和エンティティ1320に複数の音声チャンネル(例えば、チャンネル1、チャンネル2、チャンネル3、及びチャンネル4)を放送し得る。緩和エンティティ1320は、音声チャンネルのサブセット(例えば、チャンネル1、チャンネル2、及びチャンネル3)を第1のユーザ(例えば、ユーザA)に選択的に伝送するように構成され得る。第1のユーザは、例えば、遠隔の販売業者の代表者又は遠隔の専門家であり得る。第1のユーザは、緩和エンティティ1320から受信された音声チャンネルのうちの1つ又は複数を向上、排除、及び/又は修正し得る。場合によっては、第1のユーザは、音声チャンネルの第2のサブセット(例えば、チャンネル1及びチャンネル2)を第2のユーザ(例えば、ユーザB)に転送又は再び放送し得る。第2のユーザは、例えば、別の遠隔の販売業者の代表者又は遠隔の専門家であり得る。或いは、第2のユーザは、外科的処置に関連する1つ又は複数の修正又は向上された音声通信を受信して聴くことに関心のある任意の聴取者又は視聴者であり得る。例えば、第2のユーザは、医師、外科医、医療助手、医療ワーカ、患者の友人又は家族、医学生、医学研修医、又はインターンであり得る。場合によっては、第2のユーザは、第2のユーザのニーズ又は好みに基づいて、第1のユーザから受信した音声チャンネルをさらにチューニングし得る。
[00131] いくつかの実施形態において、本開示のマイクロフォンアレイ(本明細書では、マイクアレイ、マイクアレイモジュール、又はマイクロフォンアレイモジュールとも呼ばれる)は、1つ又は複数のカメラ又は画像センサを含み得る。1つ又は複数のカメラ又は画像センサは、マイクアレイモジュールの1つ又は複数のマイクロフォンを使用して音声信号を捕捉又は検出することができる領域にわたる視野を有し得る。カメラ又は画像センサは、1つ又は複数の検出可能な音声信号が発信される1つ又は複数の音声源の1つ又は複数の画像又は動画を捕捉するために使用され得る。1つ又は複数の音声源は、例えば、医師、外科医、医療ワーカ、助手、ツール(例えば、医療ツール)、器具、又は装置を含み得る。
[00132] いくつかの実施形態において、1つ又は複数の画像又は動画は、遠隔参加者が(1)マイクアレイモジュールを使用して検出又は捕捉された1つ又は複数の音声信号に関連付けられた音声源、又は(2)1つ又は複数の音声信号が検出された手術環境内の領域を見ることができるように、1つ又は複数の遠隔参加者に送出することができる。場合によっては、1つ又は複数の音声信号が検出されると、音声源又は1つ又は複数の音声信号が検出された領域の眺めを、様々な遠隔参加者にリアルタイムで表示することができる。場合によっては、異なる遠隔参加者に、異なる音声源又は関心のある音声信号の異なるセットに対応する異なる視野を提供することができる。
[00133] いくつかの実施形態において、遠隔参加者は、(1)遠隔参加者がピックアップしたい音声ビーム、及び/又は(2)遠隔参加者が調査又は監視したい視野、を選択し得る。視野は、関心のある1つ又は複数の音声ビームが発信され得る領域又は区域に対応し得る。場合によっては、遠隔参加者は、1つ又は複数の関心のある音声ビーム、1つ又は複数の関心のある音声源、又は1つ又は複数の関心のある領域を選択又は指定し得る。場合によっては、関心のある領域は、1つ又は複数の音声源が配置されている領域又は環境に対応し得る。場合によっては、関心のある音声ビーム、関心のある音声源、及び/又は関心のある領域の選択は、現地で又は遠隔式に実行され得る。
[00134] いくつかの実施形態において、マイクアレイモジュールは、1つ又は複数のカメラ又は画像センサを含み得る。1つ又は複数のカメラ又は画像センサは、手術環境の視野をユーザに提供し得る。視野は、医師、看護師、販売業者の代表者、遠隔の専門家、現地の専門家、及び/又は、手術環境で行われる処置に参加、支援、又は監視する任意の人に、手術環境の現地で、又は手術環境から離れた場所で遠隔式に、視覚的にタグ付けするために使用され得る。場合によっては、視野は、ユーザがある人物の音声信号に関心がある場合に、又はユーザがその人物の音声信号の除去又はフィルタリングを指定したい場合に、ユーザが指定することも可能にし得る。場合によっては、マイクアレイモジュールは、1つ又は複数のカメラ又は撮像センサの視野内の1つ又は複数の個人を追跡し、個人が手術環境内で移動するにつれて、音声ビーム又は視野(1つ又は複数の関心のある領域に対応し得る)を調整し得る。音声ビーム、視野、又は監視される関心のある領域の調整は、ソフトウェアを使用して、及び/又はマイクアレイモジュール又はその構成要素の位置及び/又は向きを物理的に変更することによって実行され得る。
[00135] いくつかの実施形態において、関心のある様々な音声信号、関心のある音声源、又は関心のある領域/視野の選択は、処置が行われる前に事前登録、事前決定、又は事前プログラムすることができる。選択は、個人的なユーザの好み又はユーザ(又は他のユーザ)が同様の処置に対して行った以前の選択に基づいて、ユーザによって(例えば、処置前、処置中、及び/又は処置後に)調整可能であり得る。場合によっては、関心のある様々な音声信号、関心のある音声源、又は関心のある領域/視野の選択は、記録されたコンテンツ又はライブコンテンツ上で行うことができ、その後、ユーザは、関心のある(及び/又は関心のない)音声信号のサブセットを選択することができる。場合によっては、関心のある音声信号は、本明細書の他の箇所に記載されるように、さらに向上されてもよい。場合によっては、関心のない音声信号は、ミュート、減衰、又は他の方法でフィルタリングされて、ユーザ又は参加者(例えば、遠隔参加者)が関心のある音声信号に集中できるようにすることができる。
[00136] 本明細書において本発明の好ましい実施形態を示し、記載してきたが、このような実施形態が例示としてのみ提供されることは当業者には明らかであろう。本発明が、本明細書内で提供される特定の例によって限定されることは意図されていない。本発明を前述の明細書を参照して記載してきたが、本明細書における実施形態の記載及び図示は、限定的な意味で解釈されることを意図するものではない。多数の変形、変更、及び置換を、本発明から逸脱することなく当業者は思い付くであろう。さらに、本発明のすべての態様は、様々な条件及び変数に依存する本明細書に記載された特定の描写、構成又は相対的な割合に限定されないことを理解されたい。本明細書に記載された本発明の実施形態に対する様々な代替形態が、本発明の実施において採用され得ることが理解されるべきである。したがって、本発明は、そのような代替形態、変更形態、変形形態、又は等価物もカバーすることが企図される。以下の特許請求の範囲が本発明の範囲を規定すること、及び、これらの特許請求の範囲及びその均等物の範囲内の方法及び構造がそれによってカバーされることが意図される。
Claims (54)
- 音声通信を向上させるための方法であって、
(a)医療的処置に関連する1つ又は複数の音声通信、及び前記1つ又は複数の音声通信に関連する1つ又は複数のパラメータを検出すること、及び
(b)前記1つ又は複数のパラメータに基づいて前記1つ又は複数の音声通信を処理して、1つ又は複数の向上された音声通信を生成すること、
を含む方法。 - 前記1つ又は複数のパラメータが、前記1つ又は複数の音声通信を行った人間又はロボットの身体的特徴、顔、声、又はIDを含む、請求項1に記載の方法。
- 前記1つ又は複数のパラメータが、前記1つ又は複数の音声通信のキーワード、フレーズ、又はセンテンスを含む、請求項1に記載の方法。
- 前記1つ又は複数のパラメータが、使用中のツール又は器具のタイプ、又は前記医療的処置のフェーズを含む、請求項1に記載の方法。
- 前記1つ又は複数の音声通信を処理することが、1つ又は複数の音声検出装置の検出領域、検出範囲、方向性、又は指向性を調整するためのビーム形成を含む、請求項1に記載の方法。
- 前記1つ又は複数の音声通信を処理することが、話者のIDに基づいて、前記1つ又は複数の音声通信の検出又は捕捉に優先順位を付けることを含む、請求項1に記載の方法。
- 前記1つ又は複数の音声通信を処理することが、前記1つ又は複数の音声通信内の1つ又は複数のキーワード、フレーズ、又はセンテンスの検出に基づいて、検出又は捕捉の優先順位を調整することを含む、請求項6に記載の方法。
- 前記1つ又は複数の音声通信を処理することが、前記1つ又は複数の音声通信の第2の音声通信の音量に対して、前記1つ又は複数の音声通信の第1の音声通信の音量を上げることを含む、請求項1に記載の方法。
- 前記1つ又は複数の音声通信を処理することが、前記1つ又は複数の音声通信の第2の音声通信の音量に対して、前記1つ又は複数の音声通信の第1の音声通信の音量を下げることを含む、請求項1に記載の方法。
- 前記1つ又は複数の音声通信を処理することが、1つ又は複数の音声通信をミュート又は排除することを含む、請求項1に記載の方法。
- 前記1つ又は複数の向上された音声通信が、関心のあるツール若しくは器具、又は前記関心のあるツール若しくは器具の使用法に対応する、請求項1に記載の方法。
- 前記1つ又は複数の向上された音声通信が、関心のある手術フェーズに対応する、請求項1に記載の方法。
- 前記1つ又は複数の向上された音声通信が、関心のある医師、外科医、医療ワーカ、販売業者の代表者、又は製品の専門家に対応する、請求項1に記載の方法。
- コンピュータビジョン、自然言語処理、又は機械学習を使用して前記1つ又は複数のパラメータを検出することをさらに含む、請求項1に記載の方法。
- 前記1つ又は複数のパラメータを検出することが、前記1つ又は複数の音声通信に関連付けられた医療ツール又は器具を識別することを含む、請求項1に記載の方法。
- 前記医療ツール又は器具を識別することが、前記ツール又は器具を撮像すること、前記ツール又は器具に関連付けられた識別子をスキャンすること、又は前記ツール又は器具の情報を含む1つ又は複数の電磁波を受信することを含む、請求項15に記載の方法。
- 音声通信を向上させるための方法であって、
(a)医療的処置に関連する複数の音声通信を受信することと、
(b)関心のあるパラメータに対応する1つ又は複数のユーザ入力を受信することであって、前記関心のあるパラメータが前記医療的処置の1つ又は複数のステップの実行に関連する、受信することと、
(c)前記複数の音声通信及び前記1つ又は複数のユーザ入力に基づいて、1つ又は複数の向上された音声通信を生成することと
を含む方法。 - 前記1つ又は複数のユーザ入力が、前記関心のあるパラメータのユーザ選択を含む、請求項17に記載の方法。
- 前記関心のあるパラメータが、関心のある器具、専門家、代表者、医師、外科医、又は手術フェーズを含む、請求項17に記載の方法。
- 前記1つ又は複数の向上された音声通信を生成することが、前記関心のあるパラメータに関連する1つ又は複数の音声チャンネルを隔離又は抽出することを含む、請求項17に記載の方法。
- 前記1つ又は複数の向上された音声通信を生成することが、前記複数の音声通信の第2の音声通信の音量に対して前記複数の音声通信の第1の音声通信の音量を上げることを含む、請求項17に記載の方法。
- 前記1つ又は複数の向上された音声通信を生成することが、前記複数の音声通信の第2の音声通信の音量に対して、前記複数の音声通信の第1の音声通信の音量を下げることを含む、請求項17に記載の方法。
- 前記1つ又は複数の向上された音声通信を生成することが、1つ又は複数の音声通信をミュート又は排除することを含む、請求項17に記載の方法。
- 前記1つ又は複数のユーザ入力が、関心のある音声チャンネルのマスターリストから関心のある音声チャンネルを選択することを含む、請求項17に記載の方法。
- 前記1つ又は複数の向上された音声通信が、前記医療的処置に関連する1つ又は複数の動画を後処理して、関心のあるパラメータに関連する1つ又は複数の音声チャンネルを隔離、抽出、又は増強することによって生成される、請求項17に記載の方法。
- 前記1つ又は複数の向上された音声通信が、前記医療的処置の複数の音声通信又は1つ又は複数の動画に関連付けられたメタデータに基づいて生成される、請求項17に記載の方法。
- 前記1つ又は複数の向上された音声通信が、複数の音声チャンネルに対応する、請求項17に記載の方法。
- 前記複数の音声チャンネルが、前記医療的処置をサポートする複数の医師、外科医、販売業者の代表者、又は製品の専門家に対応する、請求項27に記載の方法。
- 前記複数の音声チャンネルが、前記医療的処置の1つ又は複数のステップを実行するために使用される複数の異なるツールに対応する、請求項27に記載の方法。
- 前記複数の音声チャンネルが、前記医療的処置の複数の異なるステップ又はフェーズに対応する、請求項27に記載の方法。
- 前記1つ又は複数の音声通信を処理することが、(i)1つ又は複数の音声通信を向上させること、又は(ii)1人又は複数人のユーザに対して1つ又は複数の音声通信をミュート又は排除することを含む、請求項1に記載の方法。
- 前記1つ又は複数の音声通信が、放送事業者、緩和エンティティ、遠隔専門家、販売業者の代表者、又は前記1人又は複数人のユーザによって処理され、前記1人又は複数人のユーザが、手術動画又はその一部を視聴する少なくとも1人のユーザを含む、請求項31に記載の方法。
- 前記複数の音声通信がそこから受信又は捕捉される領域の視野を追跡するために、1つ又は複数のカメラ又は撮像センサを使用することをさらに含む、請求項17に記載の方法。
- 前記視野を1人又は複数人の遠隔参加者に伝送することをさらに含む、請求項33に記載の方法。
- 1つ又は複数の関心のある音声ビーム又は領域が、前記1人又は複数人の遠隔参加者によって選択可能であり、前記1つ又は複数の関心のある音声ビーム又は領域が、(i)前記複数の音声通信の少なくともサブセット、又は(ii)前記視野内の1つ又は複数の領域に対応する、請求項34に記載の方法。
- 前記1つ又は複数の関心のある音声ビーム又は領域の選択が、現地で又は遠隔式に実行される、請求項35に記載の方法。
- 1人若しくは複数人の関心のある個人又は1つ若しくは複数の関心のある領域を追跡又はタグ付けすることをさらに含む、請求項33に記載の方法。
- (i)向上させる音声信号のセット、又は(ii)除去又は減衰させる音声信号のセットを選択することをさらに含む、請求項37に記載の方法。
- 前記1人又は複数人の個人が前記1つ又は複数のカメラ又は撮像センサに対して移動するにつれて、前記1人若しくは複数人の関心のある個人又は1つ若しくは複数の関心のある領域を追跡することをさらに含む、請求項37に記載の方法。
- 関心のある音声ビーム又は領域の選択が、前記医療的処置の開始前に予め登録される、請求項36に記載の方法。
- 関心のある音声ビーム又は領域の選択が、前記医療的処置に関連する記録されたコンテンツに対して行われる、請求項36に記載の方法。
- 音声通信を処理する方法であって、
(a)医療的処置に関連する、又は医療的処置を実行する1人又は複数人の個人から複数の音声通信を受信することと、
(b)前記1人又は複数人の個人からの前記複数の音声通信の少なくともサブセットに基づいて、前記医療的処置に関連する1つ又は複数のツール、製品、又は器具を検出、認識、又は識別することと
を含む方法。 - (a)が、前記複数の音声通信を受信するために、1つ又は複数のマイクロフォン又は前記1つ又は複数のマイクロフォンを含むマイクロフォンアレイを使用することを含む、請求項42に記載の方法。
- 前記1つ又は複数のマイクロフォンが、前記複数の音声通信又はそのサブセット内の1つ又は複数のキーワードを検出するように構成される、請求項43に記載の方法。
- 前記1つ又は複数のツール、製品、又は器具が、前記1つ又は複数のキーワードに基づいて識別される、請求項44に記載の方法。
- 前記1つ又は複数のツール、製品、又は器具が、自然言語処理を使用して識別される、請求項42に記載の方法。
- 前記自然言語処理が、前記複数の音声通信を分析するための1つ又は複数のアルゴリズムを使用して実施される、請求項46に記載の方法。
- 前記1つ又は複数のアルゴリズムが、(i)前記複数の音声通信を解釈し、(ii)どのツール又は製品が前記医療的処置を実行するために使用されているかを判定するために、コンテキスト認識型の自然言語処理を実施するように構成される、請求項47に記載の方法。
- 前記1つ又は複数のアルゴリズムが、(i)前記複数の音声通信を解釈し、(ii)どのツール又は製品が前記医療的処置を実行する医師又は外科医によって要求されているかを判定するために、コンテキスト認識型の自然言語処理を実施するように構成される、請求項47に記載の方法。
- 前記1つ又は複数のアルゴリズムが、(i)前記複数の音声通信を解釈し、(ii)どのような処置が実行されているか、又は前記処置のどのステップが実行されているかを判定するために、コンテキスト認識型の自然言語処理を実施するように構成される、請求項47に記載の方法。
- 前記1つ又は複数のアルゴリズムが、(i)前記複数の音声通信を解釈し、(ii)(a)前記処置の異なるステップ、(b)前記処置の1つ又は複数のステップのタイミング、又は(c)前記医療的処置を実行するために医師又は病院によってどのツール又は製品が使用されるか、をカタログ化するために、コンテキスト認識型の自然言語処理を実施するように構成される、請求項47に記載の方法。
- 前記1つ又は複数のアルゴリズムが、前記複数の音声通信に対して自然言語処理を使用して、外科的処置におけるステップのタイミング、又は前記ツール、製品、若しくは器具の使用量若しくは使用頻度に関するデータを生成又は編集するように構成される、請求項47に記載の方法。
- 前記1つ又は複数のアルゴリズムが、前記複数の音声通信に対して自然言語処理を使用して、前記自然言語処理を使用して識別される異なる処置又は処置ステップの成功率及び/又は失敗率を決定するように構成される、請求項47に記載の方法。
- 前記1つ又は複数のアルゴリズムが、前記複数の音声通信に対して自然言語処理を使用して、前記自然言語処理を使用して識別される前記ツール、製品、又は器具を使用して実行される異なる処置の成功率及び/又は失敗率を決定するように構成される、請求項47に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063121655P | 2020-12-04 | 2020-12-04 | |
US63/121,655 | 2020-12-04 | ||
PCT/US2021/061859 WO2022120203A1 (en) | 2020-12-04 | 2021-12-03 | Systems and methods for enhancing audio communications |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023552205A true JP2023552205A (ja) | 2023-12-14 |
Family
ID=81853588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023533971A Pending JP2023552205A (ja) | 2020-12-04 | 2021-12-03 | 音声通信を向上させるシステム及び方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20240153491A1 (ja) |
EP (1) | EP4256581A1 (ja) |
JP (1) | JP2023552205A (ja) |
CN (1) | CN116918000A (ja) |
WO (1) | WO2022120203A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024046938A1 (en) * | 2022-08-31 | 2024-03-07 | Koninklijke Philips N.V. | Improving communication between local technologists |
EP4332984A1 (en) * | 2022-08-31 | 2024-03-06 | Koninklijke Philips N.V. | Systems and methods for improving communication between local technologists within a radiology operations command center (rocc) framework |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8181860B2 (en) * | 2006-09-13 | 2012-05-22 | Clearcount Medical Solutions, Inc. | Apparatus and methods for monitoring objects in a surgical field |
US20080189138A1 (en) * | 2007-02-06 | 2008-08-07 | Yuen Johnny S | Audio control point of care management system |
US20140278548A1 (en) * | 2013-03-15 | 2014-09-18 | EASE Applications, LLC | System and method for providing electronic access to patient-related surgical information |
US10045110B2 (en) * | 2016-07-06 | 2018-08-07 | Bragi GmbH | Selective sound field environment processing system and method |
JP2022515215A (ja) * | 2018-12-20 | 2022-02-17 | アベイル メドシステムズ,インコーポレイテッド | 医療通信用のシステム及び方法 |
-
2021
- 2021-12-03 CN CN202180092019.1A patent/CN116918000A/zh active Pending
- 2021-12-03 JP JP2023533971A patent/JP2023552205A/ja active Pending
- 2021-12-03 EP EP21901550.0A patent/EP4256581A1/en active Pending
- 2021-12-03 WO PCT/US2021/061859 patent/WO2022120203A1/en active Application Filing
-
2023
- 2023-06-01 US US18/327,375 patent/US20240153491A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4256581A1 (en) | 2023-10-11 |
WO2022120203A1 (en) | 2022-06-09 |
CN116918000A (zh) | 2023-10-20 |
US20240153491A1 (en) | 2024-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240153491A1 (en) | Systems and methods for enhancing audio communications | |
JP7224288B2 (ja) | 医療アシスタント | |
US11659350B1 (en) | Metaverse dating | |
US10650823B2 (en) | Healthcare systems and methods using voice inputs | |
US20190059728A1 (en) | System and method for performing an automatic and remote trained personnel guided medical examination | |
US20230134195A1 (en) | Systems and methods for video and audio analysis | |
US20220122719A1 (en) | Systems and methods for performing surgery | |
US20230140072A1 (en) | Systems and methods for medical procedure preparation | |
US20230146057A1 (en) | Systems and methods for supporting medical procedures | |
WO2020075545A1 (en) | Surgical support system, data processing apparatus and method | |
CN109069221A (zh) | 控制装置、控制方法、程序和声音输出系统 | |
US20230400920A1 (en) | Gaze-initiated communications | |
US20220254515A1 (en) | Medical Intelligence System and Method | |
WO2023018905A1 (en) | Systems and methods for enhancing audio communications | |
CN114883014B (zh) | 一种基于生物识别的患者情绪反馈装置、方法和治疗床 | |
KR20240059645A (ko) | 의료 보조기 |