CN105389099B - 用于语音记录和回放的方法和设备 - Google Patents
用于语音记录和回放的方法和设备 Download PDFInfo
- Publication number
- CN105389099B CN105389099B CN201510547352.3A CN201510547352A CN105389099B CN 105389099 B CN105389099 B CN 105389099B CN 201510547352 A CN201510547352 A CN 201510547352A CN 105389099 B CN105389099 B CN 105389099B
- Authority
- CN
- China
- Prior art keywords
- speaker
- sound recording
- electronic device
- information
- present
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000003860 storage Methods 0.000 claims abstract description 9
- 230000000007 visual effect Effects 0.000 claims description 27
- 230000004044 response Effects 0.000 claims description 21
- 238000006073 displacement reaction Methods 0.000 claims description 2
- 230000002459 sustained effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 80
- 238000010586 diagram Methods 0.000 description 54
- 238000004891 communication Methods 0.000 description 33
- 230000008569 process Effects 0.000 description 23
- 230000005236 sound signal Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 16
- 230000008859 change Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 8
- 230000001413 cellular effect Effects 0.000 description 7
- 238000012800 visualization Methods 0.000 description 7
- 230000001186 cumulative effect Effects 0.000 description 6
- 230000001360 synchronised effect Effects 0.000 description 6
- 230000006855 networking Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000002583 angiography Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000013329 compounding Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000001646 magnetic resonance method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- AWSBQWZZLBPUQH-UHFFFAOYSA-N mdat Chemical group C1=C2CC(N)CCC2=CC2=C1OCO2 AWSBQWZZLBPUQH-UHFFFAOYSA-N 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/808—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
- G01S3/8083—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
- G11B2020/10537—Audio or video recording
- G11B2020/10546—Audio or video recording specifically adapted for audio data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/008—Visual indication of individual signal levels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Telephone Function (AREA)
- Otolaryngology (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
提供一种用于语音记录和回放的方法和设备。提供一种用于控制电子装置的方法和设备,所述电子装置包括:被配置为接收语音输入的多个麦克风、被配置为存储声音记录文件的存储单元以及被配置为当记录声音或播放声音记录文件时视觉显示各个发言者的发言者区域的显示单元。电子装置还包括控制单元,被配置为当记录声音或执行对声音记录文件的回放时通过识别发言者方向来提供与到发言者的发言者方向相关的用户界面,并通过用户界面更新发言者信息、发言者的方向信息以及发言者的距离信息中的至少一个。
Description
技术领域
本发明总体涉及电子装置,更具体地,涉及一种用于在电子装置中记录语音的方法和设备。
背景技术
各种服务被提供给电子装置的用户。例如,电子装置支持电话功能以及包括例如以下功能的各种功能:网页浏览、内容回放、社交网络服务(SNS) 活动、声音记录(语音记录)和回放、音频记录和回放。电子装置可以在执行电话、语音记录或视频记录的功能时使用麦克风接收声音(或语音)。为了支持上述功能,电子装置的麦克风接收声音并将其转换为电信号。
当执行声音记录时,用户可以根据声音记录环境(例如采访、会议、演讲、以及日常活动)位于到电子装置的各个距离和方向。然而,确定参与声音记录的用户之间的距离或方向的声音记录环境未被考虑,并且声音(或语音)仅被简单地记录。因此,由于用户(例如发言者)与电子装置(例如麦克风)之间的距离差,可能破坏声音或语音记录的质量。具体是,难于对全部用户记录高质量语音。另外,当播放声音记录文件时,难于区分各个发言者,并且没有直观地提供与各个声音记录环境对应的信息(例如发言者的位置和方向)。
发明内容
本发明旨在解决至少上述问题和/或缺陷,并至少提供下述优点。因此,本发明的一方面提供一种电子装置和该电子装置的操作方法,其可通过建立适于支持电子装置中的声音记录功能的环境来改善用户的便利和电子装置的易用性。
根据本发明的一方面,提供了一种操作电子装置的方法。从声信号识别发言者。确定从电子装置到发言者的方向。基于从电子装置到发言者的方向来提供用于声学信号的用户界面。更新用户界面。
根据本发明另一方面,提供了一种操作电子装置的方法。执行回放操作。提供用户界面以包括与回放操作对应的至少一个发言者的发言者区域。当执行回放操作时,根据回放段输出至少一个发言者的语音。当输出至少一个发言者的语音时,更新与至少一个发言者对应的用户界面中的发言者区域。
根据本发明另一方面,提供了一种电子装置,包括:被配置为接收语音输入的多个麦克风、被配置为存储声音记录文件的存储单元以及被配置为当记录声音或播放声音记录文件时视觉显示各个发言者的发言者区域的显示单元。电子装置还包括控制单元,被配置为当记录声音或执行对声音记录文件的回放时通过识别发言者方向来提供与到发言者的发言者方向相关的用户界面,并通过用户界面更新发言者信息、发言者的方向信息以及发言者的距离信息中的至少一个。
根据本发明另一方面,提供了一种具有程序的非暂时性计算机可读记录介质。所述程序在被执行时实施以下步骤:从声信号识别发言者;识别从电子装置到发言者的方向;基于从电子装置到发言者的方向来提供用于声学信号的用户界面;当执行回放操作时,根据回放段输出至少一个发言者的语音。
附图说明
通过下面结合附图的详细描述,本发明的上述和其它方面、特征及优点将变得更加明显,其中:
图1为示出根据本发明实施例的网络环境中的电子装置的示图;
图2为示出根据本发明实施例的电子装置的示图;
图3为示出根据本发明实施例的编程模块的配置的示图;
图4为示出根据本发明实施例的电子装置中设置的麦克风的示图;
图5为示出根据本发明实施例的处理电子装置中的语音记录的流程图;
图6为示出根据本发明实施例的处理电子装置中的语音记录的过程的示图;
图7为示出根据本发明实施例的当在电子装置中执行语音记录时区分发言者的操作的示图;
图8和9为示出根据本发明实施例的识别电子装置中的发言者区域的操作的示图;
图10为示出根据本发明实施例的在电子装置中实时区分发言者的操作的示图;
图11为示出根据本发明实施例的在电子装置中实时区分发言者的操作的图表;
图12为示出根据本发明实施例的在电子装置中实时区分发言者的操作的示图;
图13为示出根据本发明实施例的在电子装置中区分发言者的操作的示图;
图14为示出根据本发明实施例的在电子装置中区分发言者的操作的示图;
图15-图18为示出根据本发明实施例的电子装置中的用于显示声音记录功能的界面的示图;
图19为示出根据本发明实施例的显示电子装置中的声音记录功能的示图;
图20为示出根据本发明实施例的电子装置中的用于显示声音记录文件的列表的界面的示图;
图21为示出根据本发明实施例的播放电子装置中的声音记录文件的过程的流程图;
图22-图24为示出根据本发明实施例的电子装置中的用于声音记录文件的回放界面的示图;
图25-图30为示出根据本发明实施例的电子装置中的用于控制对声音记录文件的回放的操作的示图;
图31为示出根据本发明实施例的当播放电子装置中的声音记录文件时显示的界面的示图;
图32为示出根据本发明实施例的在电子装置中的显示发言者信息的示例的示图;
图33为示出根据本发明实施例的通过同步电子装置来记录语音的操作的示图;
图34为示出根据本发明实施例的用于显示通过同步电子装置的声音记录功能的界面的示图;
图35至图37为示出根据本发明实施例的放置参与声音记录的电子装置的位置的操作的示图;
图38和图39为示出根据本发明实施例的管理电子装置中的声音记录文件的操作的示图;
图40为示出根据本发明实施例的在电子装置中处理语音到文本(STT) 功能的操作的示图;以及
图41至图43为示出根据本发明实施例的共享声音记录文件的操作的示图。
具体实施方式
将参照附图详细描述本发明的实施例。相同或相似的部件可以通过相同或相似的附图标记表示,尽管其在不同附图中示出。对本领域中已知的结构或处理的详细描述可以省略,以避免使得本发明的主题变得模糊。
附图中的一些部件被突出、省略或示意示出,并且每个部件的尺寸不完全反映实际尺寸。因此,本发明不限于附图中示出的相对尺寸和距离。
这里使用的表述“包含”和“包括”表示存在相应公开的功能、操作或部件,而不排除存在至少一个其它功能、操作或部件。另外,这里使用的术语“包括”和“具有”表示在本公开中存在特征、数目、步骤、操作、元件、部件或其组合,因此,应理解,并不排除至少一个其它特征、数目、步骤、操作、元件、部件或其组合。
表述“A或B”、“A和B中的至少一个”、以及“A和B中的一个或多个”可以包括所列文字之一和其组合。例如,表述“A或B”、“A和B中的至少一个”、以及“A和B中的一个或多个”可以表示以下所有情况:(1)包括至少A,(2)包括至少B,以及(3)包括至少A和B。
诸如“第一”和“第二”的表述可以修改本发明的各个部件,但是不限制对应的部件。例如,上述表述不限制对应部件的顺序和/或重要性。上述表述可用于区分一个部件与另一个部件。例如,第一用户装置和第二用户装置都是用户装置但是表示不同的用户装置。例如,在本发明的精神和范围内,第一部件可以称为第二部件,类似地,第二部件可以称为第一部件。
当描述部件(例如,第一部件)与另一个部件(例如,第二部件)操作地或通信地“耦合”或“连接”时,所述部件可以与所述另一个部件直接耦合或连接,或者在两个部件之间可存在另外的部件(例如,第三部件)。如果描述部件(例如,第一部件)与另一个部件(例如,第二部件)“直接耦合”或“直接连接”,应理解,在两个部件之间不存在其它部件。
这里所用的表述“被配置为”根据给定情况可替换为“适于”、“具有... 的能力”、“被设计为”、“适合于”、“被使得”或“能够”。表述“被配置为”在硬件中可能不仅表示“被具体设计为”。可选地,在一些情况中,表述“装置被配置为”可表示装置与另一个装置或其它部件一起“能够~”。例如,“被配置为(或被设置为)执行A、B和C的处理器”可表示这样的通用处理器 (例如,中央处理单元(CPU)或应用处理器),其可以通过使用专用处理器 (例如,嵌入处理器)或通过执行存储在存储器中的至少一个软件程序而执行对应的操作。
这里使用的输入用于描述本发明的实施例,而不限制本发明的范围和精神。将理解:除非上下文另有指示,否则单数形式也包括复数的指示物。
除非上下文清晰地另有指示,否则包括技术或科技术语的全部术语具有与本领域技术人员通常理解的相同含义。应理解,在通常使用的字典中定义的术语具有与相关技术领域中的语境含义相同的含义而不被解释为具有异常或过于正式的含义,除非本文清晰地指示。
根据本发明的各个实施例,电子装置可以实施为智能电话、平板个人计算机(PC)、移动电话、视频电话、电子书阅读器、台式PC、膝上PC、上网计算机、个人数字助理(PDA)、便携式多媒体播放器(PMP)、MP3播放器、便携式医疗装置、数字相机或可穿戴式装置(例如,诸如电子眼镜的头戴式装置(HMD)、电子服装、电子手环、电子项链、电子应用配件或智能手表)。
根据本发明实施例,电子装置可以为智能家用电器。例如,电子装置可以实施为TV、数字通用盘(DVD)播放器、音频设备、冰箱、空调、真空吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、TV盒子、游戏机、电子辞典、电子钥匙、摄像机或电子相框。
根据本发明实施例,电子装置可以实施为各种医疗装置(例如,磁共振血管造影(MRA)、磁共振成像(MRI)、计算机断层扫描(CT)、扫描机、超声波装置等)、导航装置、全球定位系统(GPS)接收器、事件数据记录器 (EDR)、飞行数据记录器(FDR)、车辆信息娱乐装置、用于轮船的电子设备(例如,海上导航系统、回转罗盘等)、航空电子设备、安全设备、车辆机头单元、工业或家用机器人、用于银行设施的自动柜员机(ATM)、用于商店的销售点(POS)或者物品(例如,电灯泡、各种传感器、电表或气表、弹簧冷却器装置、火警器、温控器、路灯、拷面包机、体育用品、热水壶、加热器、以及热水器)的互联网。
根据本发明实施例,电子装置可实施为具有通信功能的家具或者建筑的部分或构造、电子板、电子签名接收装置、投影仪或各种测量仪器(例如,水表、电表、气表、测波仪等)。电子装置可实施为上述装置的一种或其组合。根据本发明实施例的电子装置可以为柔性电子装置。另外,根据本发明实施例的电子装置不限于上述装置,而可以包括根据技术发展的新电子装置。
这里,术语“用户”可表示使用电子装置的人或使用电子装置的装置(例如,人工智能电子装置)。
首先参照图1,图1为示出根据本发明实施例的网络环境中的电子装置的示图。网络环境100包括电子装置101,其包括总线110、处理器120、存储器130、用户输入模块150、显示模块160以及通信模块170。在一些本发明的实施例中,电子装置101可省略至少一个部件或可包括其它部件。
总线110可以为与上述元件互连的电路,并传送上述元件之间的通信(例如,控制消息)。
处理器120可通过总线110从上述其它元件(例如,存储器130、用户输入模块150、显示模块160、通信模块170等)接收命令,可解释接收的命令,并可根据解释的命令执行计算或数据处理。
存储器130可包括易失性和/或非易失性存储器。存储器130可存储与电子装置101的至少一个部件相关的命令或数据。根据本发明实施例,存储器 130可存储软件和/或程序。程序包括内核141、中间件143、应用编程接口(API) 145以及应用程序(或“应用”)147。内核141、中间件143、和API 145的中的至少一个可以指操作系统(OS)。
内核141可控制或管理用于执行其它编程模块(例如,中间件143、API 145或应用147)的操作或功能的系统资源(例如,总线110、处理器120、或存储器130等)。另外,内核141可以提供这样的接口,其允许中间件143、 API 145或应用147访问、控制或管理电子装置101的各个元件。
另外,中间件143可以根据优先级处理从应用147接收的至少一个操作请求。例如,中间件143可以对应用147中的至少一个分配优先级,使得应用可以使用电子装置101的系统资源(例如,总线110、处理器120或存储器130)。通过根据分配给应用147的优先级来处理操作请求,中间件143可以对至少一个操作请求执行调度或负荷平衡。
API 145可包括文件控制、窗口控制、视频处理或用于文本控制的至少一个接口或功能(例如,命令),使得应用147可控制由内核141或中间件143 提供的功能。
用户输入模块150可起到接口的作用,其将从用户或外部装置接收的命令或数据发送到电子装置101的其它部件。另外,用户输入模块150可以将从电子装置101的其它部件接收的命令和数据发送到用户装置或外部装置。
显示模块160可包括液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、微机电系统(MEMS)显示器或电子纸显示器。显示模块160可以对用户输出各种内容,诸如,例如,文本、图像、视频、图标以及符号。显示模块160可包括触摸屏,并可以接收通过利用电子笔或用户身体的部分的触摸、手势、靠近或悬停的输入。
通信模块170可以设置电子装置101与外部装置(例如,第一外部电子装置102、第二外部电子装置104或服务器106)之间的通信。例如,通信模块170可以通过无线通信或有线通信与网络162连接而与外部装置(例如,第二外部电子装置104或服务器106)通信。
无线通信可以使用至少一个蜂窝通信协议,诸如,例如,长期演进(LTE)、高级LTE(LET-A)、码分多址(CDMA)、宽带CDMA(WCDMA)、通用移动电信系统(UMTS)、无线宽带(WiBro)或全球移动通信系统(GSM)。另外,e无线通信可包括局域网164。局域网164可包括无线保真(WiFi)、蓝牙、近场通信(NFC)或全球定位系统(GPS)中的至少一个。有线通信可包括通用串行总线(USB)、高清多媒体接口(HDMI)、推荐标准232(RS-232) 或普通老式电话业务(POTS)中的至少一个。网络162可包括诸如计算机网络(例如LAN或WAN)的通信网络(电信网络)、互联网或电话网络中的至少一个。
第一和第二外部电子装置102和104可以是与电子装置101相同的类型,或者可以是不同类型的装置。根据本发明实施例,服务器106可包括成组的一个或多个服务器。根据本发明的各个实施例,在电子装置101中执行的全部或部分操作也可以在一个或多个不同电子装置(例如,电子装置102和104 或服务器106)中被执行。根据本发明实施例,当电子装置101自动或根据请求执行功能或服务时,电子装置101可以不通过其自身执行全部功能或服务,而是可以请求另一个装置(例如,电子装置102和104或服务器106) 执行至少部分功能或其它功能,并将结果传送到电子装置101。电子装置101 可以提供如接收的或通过另外处理的请求的功能或服务。为此,可以使用云计算、分布计算或客户端-服务器计算技术。
图2为示出根据本发明实施例的电子装置的示图。
电子装置201可形成例如图1的电子装置101的全部或部分。电子装置 201包括:至少一个应用处理器(AP)210、通信模块220、订阅者识别模块 (SIM)、存储器230、传感器模块240、输入系统250、显示模块260、接口270、音频模块280、相机模块291、电力管理模块295、电池296、指示器297、以及马达298。
AP 210例如可以驱动操作系统或应用,控制与其连接的多个硬件或软件部件,还可以对包括多媒体数据的各个数据执行处理和操作。AP 210可以由例如片上系统(SoC)形成。根据本发明实施例,AP 210还可以包括图形处理单元(GPU)和/或图像信号处理器。
AP 210可包括图2所示的部件的至少部分(例如,蜂窝模块221)。AP 210 可通过加载到易失性存储器中来处理从至少一个其它部件(例如,非易失性存储器)接收的命令或数据,并将各个数据存储在非易失性存储器中。
通信模块220可具有与图1的通信接口170相同或相似的配置。例如,通信模块220包括蜂窝模块221、WiFi模块223、蓝牙模块225、GPS模块 227、NFC模块228以及射频(RF)模块229。
蜂窝模块221可通过通信网络提供语音通信、视频通信、特征服务或互联网服务。根据本发明实施例,蜂窝模块221可通过使用通信网络中的SIM 224(例如,SIM卡)执行对电子装置201的识别和认证。根据本发明实施例,蜂窝模块221可执行由处理器210提供的功能的至少一部分。根据本发明实施例,蜂窝模块221可包括通信处理器(CP)。
WiFi模块223、蓝牙模块225、GPS模块227或NFC模块228可各自包括用于处理通过对应模块发送和接收的数据的处理器。根据本发明实施例,可以在集成电路(IC)或IC封装中安装蜂窝模块221、WiFi模块223、蓝牙模块225、GPS模块227和NFC模块228中的至少一个。RF模块229可发送和接收数据,例如,RF信号或任何其它电信号。RF模块229可包括收发器、功率放大模块(PAM)、频率滤波器、低噪声放大器(LNA)、天线等。WiFi模块223、BT模块225、GPS模块227和NFC模块228示出为共享RF 模块229,然而,在本发明的另一个实施例中,它们中的至少一个可以通过分离的RF模块执行对RF信号的发送和接收。
SIM 224可以被包括在卡中或者是嵌入SIM,并且可以包括具体识别信息(例如,集成电路卡识别码(ICCID))或用户信息(例如,国际移动用户标识(IMSI))。
存储器230(例如,存储器130)包括内部内建存储器232和/或外部存储器234。内部存储器232可包括易失性存储器(例如,动态随机存取存储器(DRAM)、静态RAM(SRAM)或同步动态RAM(SDRAM))和非易失性存储器(例如,一次可编程只读存储器(OTPROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、可电擦除可编程ROM(EEPROM)、掩码 ROM、快闪ROM、闪存(例如,NAND闪存或NOR闪存)、硬盘驱动器或固态驱动器(SSD))中的至少一个。
外部存储器234可包括快闪驱动器,例如,紧凑型闪存(CF)、安全数字(SD)、微型安全数字(Micro-SD)、迷你安全数字(Mini-SD)、极限数字 (XD)、多媒体卡(MMC)、记忆棒等。外部存储器234可通过各种接口与电子装置201功能地和/或物理地连接。
传感器模块240可测量电子装置201的物理量或感测电子装置201的操作状态,并且然后将测量或感测的信息转换为电信号。传感器模块240包括例如以下传感器中的至少一个:手势传感器240A、陀螺仪传感器240B、大气压传感器240C、磁传感器240D、加速传感器240E、握力传感器240F、接近传感器240G、色彩传感器240H(例如,红色、绿色、蓝色(RGB)传感器)、生物传感器240I、温度-湿度传感器240J、照度传感器240K以及紫外线(UV)传感器240M。在本发明实施例中,当处理器210处于睡眠状态时,电子装置201可以通过进一步包括被配置为部分或分离地控制传感器模块 240的处理器而控制传感器模块240。
输入系统250包括例如,触摸板252、数字笔传感器254、键256和/或超声输入装置258。触摸板252可以识别以电容类型、电阻类型、红外类型或超声类型的方式输入的触摸。另外,触摸板252还可以包括控制电路。触摸板252还可以包括触觉层。在该情况中,触摸板252还对用户提供触觉反馈。
笔传感器(数字笔传感器)254可以为触摸板的部分或者分离的识别片。键256可包括物理键、光学键或键盘。超声输入装置258可以通过麦克风288 检测由输入工具产生的超声波,并识别与该检测的超声波对应的数据。
显示模块260(例如,显示器160)包括面板262、全息单元264和/或投影仪266。面板262可具有柔性的、透明的或可穿戴的形式。面板262可以由具有触摸板252的单个模块形成。全息单元264使用干涉光可在空气中显示立体图像。投影仪266可在屏幕上投影图像,所述屏幕可位于电子装置201 的内侧或外侧。根据本发明实施例,显示器260还可以包括用于控制面板262 的控制电路、全息单元264以及投影仪266。
接口270包括,例如,高清多媒体接口(HDMI)272、通用串行总线(USB) 274、光学接口276和/或D型连接器(D-sub)278。接口270可以被包含在例如图1的通信接口170中。另外或可选地,接口270可包括,例如,移动高清链路(MHL)接口、安全数字(SD)卡/多媒体卡(MMC)接口或红外数据协会(IrDA)接口。
音频模块280可以执行声音与电信号之间的转换。音频模块280的至少部分可以被包含在例如图1的用户输入模块150中。音频模块280可以处理通过扬声器282、接收器284、耳机286和/或麦克风288输入或输出的声音信息。
根据本发明各个实施例,麦克风288可接收外部声音信号并将其处理为电语音数据。当电子装置201处于电话模式时,可通过转换为可发送的形式经由通信模块220将由麦克风288处理的语音数据输出到外部装置。可使用各种降噪算法来配置麦克风288,以去除在接收外部声音信号的处理中产生的噪声。麦克风288可处理语音识别、语音复制、数字记录和电话功能的音频流。例如,麦克风288可将语音信号转换为电信号。
根据本发明各个实施例,麦克风288被配置为具有多个麦克风(例如,第一麦克风、第二麦克风和第三麦克风),从而可以以特定阵列形式获得方向图。如果电子装置201包括多个麦克风,则可以基于时间、距离和通过麦克风输入的声音或语音的强度(分贝)中的至少一个来识别发言者的方向,从而可以区分各个麦克风288。电子装置201可以输出与区分方向的发言者对应的声音。根据本发明各个实施例,麦克风288可以包括安装在电子装置201 中的内部麦克风和与电子装置201连接的外部麦克风。根据本发明实施例,当执行声音记录功能时,可通过组合内部和外部麦克风来支持声音记录。
根据本发明各个实施例,AP 210(或控制器,或控制单元)可以控制与声音记录功能有关的控制操作。例如,AP 210可以在执行声音记录或回放时识别发言者方向,并控制以提供于识别发言者的方向的操作对应的用户界面。 AP 210可以在进行声音记录或回放时控制以通过用户界面更新发言者信息、发言者方向信息或发言者距离信息中的至少一个。根据本发明各个实施例, AP 210可以通过利用存储在存储器230中的软件模块进行同步而执行对电子装置的语音记录操作。AP 210可以通过在声音记录功能中区分发言者和发言者位置(距离和方向)来执行声音记录。另外,AP 210可以在声音记录功能中识别当前发言者,并在显示视觉效果时基于识别的发言者来记录语音信号。
根据本发明各个实施例,AP 210可以在回放功能中选择发言者,并基于选择的发言者在显示视觉效果时输出语音信号。
根据本发明各个实施例,AP 210可以通过有线或无线通信连接其它用户 (多个发言者)的电子装置,并且,在一些情况中,作为连接的电子装置的主机或服务器运行,以发送和接收语音信息和发言者信息。
根据本发明各个实施例,通过同步多个麦克风或电子装置(例如,电子装置101和电子装置102),AP 210获得到达的语音之间的具有高能量或相位差的方向的角度信息,以识别音源的方向。AP 210可以基于在预定时间中累积的方向来识别音源的发言者区域,如果声音大小大于预定值或者如果方向的角度值具有与之前声音的平均角度值的较大的差,则控制单元可以将其处理为噪声或无意义的语音。当记录声音或播放声音记录文件时,AP210可以区分发言段、无声段、同时发言段以及发言者移动段,并处理与补偿发言者或电子装置201的移动有关的操作。另外,AP 210可以处理存储各个信息的操作,所述信息诸如发言者信息、发言者区域中的语音信号、通过将语音信号转换为文本生成的文本信息以及发言者区域信息。根据本发明各个实施例, AP 210可以配置有可以处理上述功能的至少一个模块。
相机模块291可以拍摄图像和移动图像。根据本发明实施例,相机模块 291可以包括一个或多个图像传感器(例如,前透镜或后透镜)、图像信号处理器(ISP)以及LED闪光灯。
电力管理模块295可以管理硬件的电力。电力管理模块295可以包括,例如,电力管理集成电路(PMIC)、充电器IC或电池量表。PMIC可以被安装至例如IC或SoC半导体。充电方法可以分类为有线充电方法和无线充电方法。无线充电方法的示例可以包括磁共振方法、磁感应方法、电磁方法等。可以添加用于无线充电的其它电路(例如,线圈回路、谐振电路、整流器等) 以执行无线充电。电池量表可测量例如电池296的剩余量或者在充电期间的电压、电流或温度。电池量表可测量例如电池296的剩余量或者在充电期间的电压、电流或温度。电池296可以通过发电供电,并且可以是例如可充电电池或太阳能电池。
指示器可以指示电子装置201或电子装置201的部分(例如,AP 210) 的特定状态,例如,启动状态、消息状态、充电状态等。马达298可以将电信号转换为机械振动或者产生振动或触感效果。电子装置201可包括用于支持模块TV的处理单元(例如,GPU)。用于支持模块TV的处理单元可以根据诸如数字多媒体广播(DMB)、数字视频广播(DVB)、媒体流等的标准来处理媒体数据。
根据本发明实施例的电子装置201的上述元件的每个可以包括一个或多个部件,并且相关元件的名称可以根据电子装置的类型变化。根据本发明实施例的电子装置201可包括至少一个上述元件。一些上述元件可以从电子装置201省略,或者电子装置201还可以包括其它元件。另外,根据本发明实施例的电子装置201的一些元件可以被组合为一个实体,其可以执行与组合前的相关元件的功能相同的功能。
图3为示出根据本发明实施例的编程模块的配置的示图。
编程模块300可以实施为硬件,并且可以包括控制与电子装置(例如,电子装置201)有关的资源的OS和/或在OS中执行的各个应用(例如,应用 147)。
编程模块300包括内核320、中间件330、API 360和/或应用370。编程模块300的至少一部分可以被预加载到电子装置中或从外部装置(例如,电子装置102和104,或服务器106)下载。
内核320(例如,内核141)包括系统资源管理器321和/或装置驱动器 323。系统资源管理器321可以包括例如处理管理器、存储器管理器和文件系统管理器。系统资源管理器321可以对系统资源执行控制、分配、恢复等。装置驱动器323可以包括例如显示器驱动器、相机驱动器、蓝牙驱动器、共享存储器驱动器、USB驱动器、键盘驱动器、WiFi驱动器和/或音频驱动器。另外,根据本发明实施例,装置驱动器323可包括进程间通信(IPC)驱动器。
中间件330可包括预先实施的多个模块,以提供由应用370常用的功能。另外,中间件330可通过API 360向应用370提供功能,以使得应用370能够有效使用电子装置中的有限系统资源。例如,如图3所示,中间件330(例如,中间件143)包括以下至少一个:运行时刻库335、应用管理器341、窗口管理器342、多媒体管理器343、资源管理器344、电力管理器345、数据库管理器346、封装管理器347、连接管理器348、通知管理器349、位置管理器350、图形管理器351、安全管理器352以及任何其它合适的和/或相似的管理器。
运行时刻库335可包括例如由编译器使用的库模块,以在执行应用370 期间通过使用编程语言添加新功能。根据本发明实施例,运行时刻库335可执行与输入和输出有关的功能、对存储器的管理、算术功能等。
应用管理器341可管理例如应用370中的至少一个的生命周期。窗口管理器342可管理在屏幕上使用的GUI资源。多媒体管理器343可以检测用于再现各个媒体文件的格式,并且可以通过适于相关格式的编解码器对媒体文件进行编码或解码。资源管理器344可以管理应用370中的至少一个的资源,诸如源代码、存储器、存储空间等。
电力管理器345可以与基本输入/输出系统(BIOS)一起操作,可以管理电池或电力,并且可以提供用于操作的电力信息等。数据库管理器346可以这样管理数据库以允许生成、搜索和/或改变将由应用370中的至少一个使用的数据库。封装管理器347可以管理对以封装文件形式分布的应用的安装和/ 或更新。
连接管理器348可以管理无线连接,诸如WiFi和蓝牙。通知管理器349 可以以不打扰用户的方式向用户显示或报告诸如收到消息、约会、接近告警等的事件。位置管理器350可以管理电子装置的位置信息。图形管理器351 可以管理将提供给用户的图形效果和/或与图形效果有关的用户界面。安全管理器352可以提供用于系统安全、用户认证等的各种安全功能。根据本发明实施例,当电子装置(例如,电子装置101)具有电话功能时,中间件330还可以包括电话管理器,用于管理电子装置的语音电话呼叫功能和/或视频电话呼叫功能。
中间件330可以通过上述内部元件模块的各种功能组合来产生和使用新中间件模块。中间件330可以提供根据OS类型的专用模块,以提供分化功能。另外,中间件330可以动态删除一些现有的元件,或者可以添加新元件。因此,中间件330可以删除一些在本发明各个实施例中描述的元件,还可以包括其它元件,或者可以以元件(其每个执行相似功能并具有不同名称)替换一些所述元件。
API 360(例如API 145)是一组API编程功能,并且可以通过根据OS 的不同配置而被提供。
应用370(例如,应用147)可以包括例如预加载应用和/或第三方应用。应用370(例如,应用147)包括,例如,家用应用371、拨号器应用372、短消息服务(SMS)/多媒体消息服务(MMS)应用373、即时消息(IM)应用374、浏览器应用375、相机应用376、报警应用377、联系人应用378、语音拨号应用379、电子邮件(e-mail)应用380、年历应用381、媒体播放器应用382、专辑应用383、时钟应用384以及任何其它合适的和/或相似的应用。
根据本发明实施例,应用370可以包括支持电子装置101与外部电子装置102和104之间的信息交换的应用(下文,“信息交换应用”)。信息交换应用可以包括:通知中继应用或者装置管理应用,其中,通知中继应用用于向外部电子装置发送具体信息,装置管理应用用于管理外部电子装置。
例如,通知中继应用可以包括将通过其它电子装置的应用(例如, SMS/MMS应用373、电子邮件应用380、健康护理应用或环境信息应用)产生的通知信息发送给外部电子装置(例如,电子装置102和104)的功能。另外,通知中继应用可以通过从外部电子装置接收而向用户提供通知信息。
装置管理应用可以管理(例如,安装、删除或更新)与电子装置通信的外部电子装置(例如,电子装置102和104)、在外部电子装置中操作的应用、或通过外部电子装置提供的服务(例如,电话服务或消息服务)的至少一个功能(例如,接通/断开电子装置或一些其组件,或控制显示亮度和清晰度)。
根据本发明实施例,应用370可以包括根据外部电子装置102和104的属性指定的应用(例如,用于移动医疗器械的健康护理应用)。根据本发明实施例,应用370可以包括从外部电子装置(例如,服务器106或电子装置102 和104)接收的应用。根据本发明实施例,应用370可以包括预加载应用或从服务器下载的第三方应用。根据本发明实施例,编程模块300的部件名称可以根据操作系统的类型而不同。
根据本发明各个实施例,编程模块300的至少部分可以以软件、固件、硬件或其组合配置。编程模块300的至少部分可以通过处理器(例如,处理器210)实施或执行。编程模块300的至少部分可以包括模块、程序、例行程序、指令的命令集或者进程,以执行至少一个功能。
这里使用的术语“模块”可以指例如包括硬件、软件和固件的一个或多个组合的单元。术语“模块”可以以诸如“单元”、“逻辑”、“逻辑块”、“部件”、“电路”等的术语替换。模块可以为形成为一体的部件或其部分的最小单元。模块可以为用于执行一个或多个功能或其部分的最小单元。模块可以机械地或电子地实施。例如,根据本发明实施例的模块可以包括以下至少一个:专用集成电路(ASIC)芯片、现场可编程门阵列(FPGA)以及用于执行特定操作的可编程-逻辑装置,其为已知的或者将在未来被开发的。
编程模块300的至少部分可通过存储在非暂时性计算机可读存储介质中的指令实施。当通过一个或多个处理器(例如,一个或多个处理器120)执行指令时,所述一个或多个处理器可以执行对应于指令的功能。非暂时性计算机可读存储介质可以为例如存储器130。编程模块300的至少部分可通过例如一个或多个处理器120实施(例如,执行)。编程模块300的至少部分可以包括例如:模块、程序、例行程序、指令集和/或用于执行一个或多个功能的进程。
计算机可读存储介质可以包括:硬盘、软盘、磁介质(例如,磁带)、光介质(例如,压缩盘只读存储器(CD-ROM)、DVD)、磁光介质(例如,软光盘)、硬件装置(例如,ROM、RAM或闪存)。另外,程序命令不仅可以包括通过编译器产生的机器语言代码,还可以包括利用解释器可通过计算机执行的高级语言代码。根据本发明各个实施例,上述硬件装置可被配置为通过至少一个软件模块操作以执行操作,反之亦然。
根据本发明实施例的编程模块(例如,编程模块300)的元件的名称可以根据OS的类型而改变。根据本发明实施例的编程模块300可包括一个或多个上述元件。可选地,可以从编程模块300省略上述元件中的一些。可选地,编程模块300还可以包括其它元件。根据本发明实施例,可以在顺序方法、并行方法、重复方法或启发方法中处理通过编程模块300或其它元件执行的操作。另外,可以从操作省略一些操作,或者可以对操作添加其它操作。
本发明的实施例涉及一种电子装置和用于操作该电子装置的方法,其包括用于多个发言者的声音(语音)记录功能、播放声音记录文件以及管理记录文件。在本发明各个实施例中,可以通过考虑各种声音记录环境(例如,在采访、会议、演讲以及日常活动中的声音记录)、发言者之间的距离或方向来执行声音记录,从而公开了一种可以直观地播放对应声音记录文件的电子装置和操作该电子装置的方法。
根据本发明各个实施例,通过使用安装在电子装置中的多个麦克风或者通过同步多个电子装置来从多个方向输入声音信号(声学信号)。通过计算通过预定方法输入的声音信号来跟踪音源产生方向(发言者区域)。另外,根据本发明各个实施例,可以通过转换到可视化信息来提供跟踪的音源方向。根据本发明各个实施例,通过以可视化信息提供音源产生方向,可以根据用户选择从各个发言者选择回放。
根据本发明各个实施例,电子装置可以包括多个麦克风,并且可以通过使用多个麦克风区分发言者、发言者的位置或方向来支持语音记录。在本发明各个实施例中,多个麦克风可以包括安装在电子装置中的内部麦克风或与电子装置连接的外部麦克风,并且可以通过组合内部麦克风与外部麦克风而另外地或交替地操作。
另外,根据本发明各个实施例,可以通过在多个电子装置之间的有线或无线同步来执行对多个发言者的语音的声音记录,并且可以通过基于多个电子装置区分发言者、发言者的位置和方向来支持声音记录。另外,根据本发明各个实施例,电子装置可以直观地显示参与声音记录的发言者的信息和发言者之间的发言者区域(位置或方向)的信息,并根据对发言者的选择支持选择性回放。
在本发明各个实施例中,电子装置可以包括使用各种处理器(例如,处理器120)的所有装置,诸如AP、GPU和CPU。例如,电子装置可包括信息和通信装置、多媒体装置、可穿戴装置以及支持根据本发明各个实施例的功能的应用装置。
下文中,描述根据本发明各个实施例的用于访问硬件的方法。然而,本发明各个实施例包括使用硬件和软件的技术,从而本发明各个实施例不排除基于软件的访问方法。
根据本发明实施例,电子装置可包括:多个麦克风,其被配置为输入语音;存储单元,其被配置为存储声音记录文件;显示单元,其被配置为在声音记录或播放声音记录文件时视觉显示各个发言者的发言者区域;以及控制单元,其被配置为进行控制,以在进行声音记录时显示与发言者方向对应的发言者区域、当声音记录结束时通过包括语音信息和方向信息来存储声音记录文件、当播放声音记录文件时视觉显示选择性回放和回放的发言者区域。在本发明各个实施例中,麦克风可包括内部麦克风和外部麦克风。另外,声音记录文件可被配置为具有语音信息、方向信息、距离信息以及文本信息,并且存储单元在存储声音记录文件时可存储原始声音记录文件、分割声音记录文件、各个发言者的声音记录文件。
下文中,声音记录模式可用作为包括以下模式的术语:普通模式、采访模式、会议模式、语音备忘录模式以及回放模式。普通模式可以为其中用户通过使用电子装置执行常规声音记录功能的模式。采访模式可以为这样的模式,其中用户通过使用电子装置在与一个以上的用户交谈的环境中执行通过单个发言者的声音记录功能。会议模式可以为这样的模式,其中在具有多个发言者的会议环境中通过单个发言者执行声音记录功能。语音备忘录模式可以为其中通过将语音转换为文本来记录基于文本的消息或备忘录的模式。回放模式可以为其中回放通过各个声音记录功能存储的声音记录文件的模式。
图4为示出根据本发明实施例的电子装置中设置的麦克风的示图。
参考图4,电子装置400包括多个麦克风(例如,第一麦克风443A、第二麦克风443B以及第三麦克风443C)。例如,可以在电子装置400的上表面、下表面、右表面、左表面、前表面或后表面之一上安装多个麦克风。
在本发明各个实施例中,多个麦克风443A、443B和第三麦克风443C可以被安装在电子装置400中,并将相关信息发送到控制单元,使得通过从多个发言者接收语音而执行声音记录功能。
在本发明实施例中,电子装置400包括第一麦克风443A、第二麦克风 443B和第三麦克风443C。第一麦克风443A和第二麦克风443B被安装在电子装置400的下表面处,第三麦克风443C被安装在电子装置400的上表面处。在本发明实施例中,第一麦克风443A、第二麦克风443B和第三麦克风443C 之一可以为用于电子装置400的电话功能的麦克风,而其它麦克风可以为用于电子装置400的声音记录的麦克风。在本发明各个实施例中,第一麦克风443A、第二麦克风443B和第三麦克风443C可以被设计为具有方向性部件。
在根据本发明实施例的电子装置400中,麦克风的设置不限于图4所示的设置。麦克风的设置可以被不同地实施,例如,两个麦克风可以被安装在电子装置400的上表面处,并且一个麦克风可以被安装在电子装置400的下表面处。可选地,另外的麦克风可以被安装在电子装置400的右表面或左表面。
在本发明各个实施例中,包括多个麦克风443A、443B和443C的电子装置400可以基于通过第一麦克风443A、第二麦克风443B和第三麦克风443C 输入的语音的时间差、距离差或声音强度(例如,分贝差)中的至少一个来识别发言者信息(例如,发言者的位置、距离或方向)。
图5为示出根据本发明实施例的处理电子装置中的语音记录的流程图。
参考图5,AP 210在步骤601中执行声音记录模式。例如,AP 210在操作电子装置201时可以接收请求执行声音记录模式的用户输入,并执行与用户输入对应的声音记录模式。根据用户选择,声音记录模式可以被执行为采访模式或会议模式,并且AP 210可以根据用户选择控制以显示与声音记录模式有关的界面。
根据本发明各个实施例,在步骤603中,AP 210通过麦克风接收声音信号(声学信号)。例如,如果至少一个用户(发言者)在会议环境中进行发言,则可以通过安装在电子装置400中的多个麦克风(例如,第一麦克风443A、第二麦克风443B和第三麦克风443C)输入对应的声音。多个麦克风可以接收输入声音并通过转换为电信号来发送到AP 210。
根据本发明各个实施例,如果从多个麦克风接收声音信号(声学信号),则在步骤605中,AP 210计算每个声音信号。例如,AP 210可以通过使用基于声音信号之间的到达时差(TDOA)的音源位置跟踪系统来计算通过多个麦克风输入的声音信号(声学信号)。TDOA的算法可以指这样的系统,其根据麦克风(例如,第一麦克风443A、第二麦克风443B和第三麦克风443C) 的设置通过使用通过安装在不同位置的多个麦克风输入的声音信号的到达延迟差跟踪音源的位置。根据本发明实施例,AP 210可以通过使用TDOA计算每个声音信号(例如声音信号的波形)之间存在的相对时间延迟。可选择地, AP 210可以通过使用音源位置跟踪系统来计算通过多个麦克风输入的声音信号,所述音源位置跟踪系统基于可控响应功率(SRP)来比较声音信号的频率、相位或声压。根据本发明实施例,声音除频率和相位之外还具有声压特征。声压为当声波穿过介质时产生的压力,并且根据声音信号与每个麦克风之间的距离可产生声压的大小之差。因此,通过计算和比较通过每个麦克风输入的声压,可以识别在具有最高声压的麦克风的隐蔽(closet)位置生成声音。另外,AP 210可以使用复合算法以跟踪音源。
根据本发明各个实施例,在步骤607中,AP 210基于计算结果识别音源的方向。例如,AP 210可以从通过诸如TDOA或SRP的音源位置跟踪算法计算的结果识别音源的方向,并根据音源的方向区分各个发言者(例如,发言者区域)。
根据本发明各个实施例,在步骤609中,AP 210处理将与音源的方向对应地显示的发言者信息。例如,AP 210可以通过分析跟踪的音源的方向来识别当前发言者的发言者区域,并处理以通过识别的发言者区域动态显示用于识别当前发言者的发言者信息。根据本发明实施例,AP 210可以识别发言者的方向,提供用于将识别的方向与发言者关联的用户界面,并提供将与输入音源对应地动态更新的用户界面。将在后文中描述根据本发明实施例的用于显示发言者区域和对应的发言者信息的操作。
根据本发明各个实施例,AP 210在处理步骤603至609中可以基于通过多个麦克风输入的声音信号和跟踪的音源的方向来处理背景中通过各个发言者的声音记录,并缓冲通过各个发言者的声音记录信息。在本发明各个实施例中,声音记录信息可包括正记录的声音信息和对应声音的分析位置信息。
根据本发明各个实施例,在步骤611中,AP 210识别是否检测到用于终止声音记录操作的用户输入。例如,AP 210可以识别当在声音记录模式中执行声音记录功能时是否通过设置用于终止声音记录功能的界面(例如,结束按钮)产生用户输入。
根据本发明各个实施例,如果未检测到用于终止声音记录操作的用户输入,则AP210返回步骤603并执行上述操作。
如果检测到用于终止声音记录操作的用户输入,则在步骤613中,AP 210 产生声音记录文件。例如,AP 210终止响应于用户输入的语音记录,并基于通过各个发言者在声音记录操作中缓冲的声音记录信息来产生至少一个声音记录文件。根据本发明实施例,可以以分离的文件或单个文件来产生通过各个发言者的声音记录信息。根据本发明各个实施例,AP 210可以通过包括发言者位置信息来产生声音记录文件。
根据本发明各个实施例,在步骤615中,AP 210存储产生的声音记录文件。例如,AP210可以存储根据声音记录系统的与各个发言者对应的一个或多个声音记录文件。
根据本发明各个实施例,在步骤617中,AP 210终止声音记录模式。根据本发明实施例,当响应于用户输入结束声音记录模式时,AP 210可以显示存储的声音记录文件的文件列表,或者停止声音记录操作同时保持对声音记录模式的屏幕显示。
根据本发明各个实施例,AP 210可以从输入声学信号(声音信号、语音) 识别发言者,并在进行声音记录的同时执行识别已识别发言者的方向的操作。根据本发明各个实施例,控制单元480可以基于操作结果提供用于将方向与发言者关联的用户界面,并在进行声音记录时动态更新用户界面。根据本发明各个实施例,更新的操作可以包括在进行声音记录时视觉显示响应于声学信号的对应方向的改变的发言者信息的操作。根据本发明各个实施例,更新操作可以包括以下操作:基于声学信号输入识别发言者,以及基于识别结果在用户界面中显示改变的发言者信息,或者通过向用户界面增加新的发言者信息来进行显示。
图6为示出根据本发明实施例的处理电子装置中的语音记录的过程的示图。
参考图6,可以通过多个麦克风(例如,第一麦克风443A、第二麦克风 443B、以及第三麦克风443C)输入通过发言者产生的语音(声音)500。可以通过模拟-数字转换器(ADC)510将通过多个麦克风输入的语音(声音) 转换为电信号。
根据本发明各个实施例,当语音通过ADC 510时,可以从语音(声音) 提取脉冲码调制(PCM)音源520和角度(度)535。例如,ADC 510可以通过使用PCM系统的第三方模块(例如,PCM声音模块以及PCM音调发生器)转换为数字信号而将发言者的语音信号发送给语音记录器550,并通过语音记录器550执行声音记录。另外,ADC 510可以通过第三方模块提取输入语音的角度535。提取的角度535可以存储在系统存储器530中。
根据本发明各个实施例,可以通过音频框架540将存储在系统存储器530 中的角度535实时发送到语音记录器550。
根据本发明各个实施例,语音记录器550可以基于发送的PCM音源执行声音记录,并通过使用在声音记录期间发送的角度来分析PCM音源的方向。 AP 210可以基于分析的方向在显示单元中显示发言者信息。另外,可以通过与PCM音源同步来存储方向。
根据本发明各个实施例,可以根据经过时间来累积角度(度),并因此可以识别每个发言者的位置。在下表1中示出这样的示例。
表1
30ms | 60ms | 90ms | 120ms | 150ms | |
方向A | 80° | 79° | 83° | 77° | 84° |
方向B | 270° | 277° | 35° | 273° | 272° |
表1示出根据本发明各个实施例从识别的角度(度)区分每个发言者的示例。在表1中,垂直线指示每个发言者的位置,水平线指示经过时间。下文中,描述根据本发明各个实施例的用于区分发言者(或发言者的位置)的方法。
图7为示出根据本发明实施例的当在电子装置中执行语音记录时区分发言者的操作的示图。
参考图7,电子装置400可以在声音记录模式(例如,会议模式)中检测全方向范围(0°至360°)中的发言者。
另外,在本发明实施例中,可通过获得识别角度的累积平均值来计算代表角度。根据本发明实施例,电子装置400可以基于如图7所示的计算的代表角度(即,分析的方向)识别发言者的方向。根据本发明实施例,用户可以被区分,诸如,用户A:180°,用户B:305°,用户C:25°,以及用户D:115 °,如图7所示。
另外,如果新输入的角具有与现有角度的预定基角(例如,+/-10°,+/-15 °,+/-30°)更大的差,则可以通过将新输入的角度识别为错误值而忽略或舍弃。
例如,参考表1,如果在30ms首先识别的角度为270°,则可以确定现有角度为270°。随后,如果在60ms输入新角度277°,则可通过获得之前的270°与新的277°的累积平均值来确定现有角度为约273°。这里,新的角度277°存在与现有角度270°的容差范围(例如,基角+/-10°),从而可用于计算现有角度。随后,如果在90ms输入新角度35°,则将新角度35°识别为错误,并可以忽略。即,因为新角度35°具有与现有角度的容差范围 (例如,基角+/-10°)更大的差,从而可以将角度35°处理为错误。随后,在120ms输入的角度273°和在150ms输入的角度272°可以以与上述相同的方式确定。
另外,根据本发明各个实施例,可以将在基角(例如,+/-10°)内输入的全部角度的平均角度转换为累积平均角度(例如,273°)并存储在文件中。根据本发明实施例,如果在计算累积平均角度305°之后计算用于用户B的累积平均角度,则可以将设置在305°的基角(例如,+/-10°)内输入的角度确定为基于305°的发言者位置,并且可以将具有大于预定基角的差的角度(例如,290°)处理为错误,如图7所示。
图8和9为示出根据本发明另一个实施例的识别电子装置中的发言者区域的操作的示图。
参考图8和9,在记录通过各个发言者的语音时,可以通过考虑输入角度和发言者的移动来识别发言者区域。
根据本发明各个实施例,如图8所示,在记录通过各个发言者的语音时,可以通过测量音源的输入角度(方向)的频率来识别对应的发言者区域。例如,可以将在19°和31°之间的音源识别为相同的发言者区域(例如,用户 C),可以将在109°和121°之间的音源识别为相同的发言者区域(例如,用户D),可以将在175°和187°之间的音源识别为相同的发言者区域(例如,用户A),以及可以将在283°和310°之间的音源识别为相同的发言者区域 (例如,用户B)。
如图9所示,可以通过考虑发言者在有限区域(例如,基角的误差范围) 内的移动或位移识别发言者区域。在本发明各个实施例中,可以根据声音记录环境的类型不同地确定误差范围。根据本发明实施例,在具有发言者的频繁移动的会议环境中,可以以将误差范围(基角)设置为较大(例如,+/-30 °)的动态模式执行声音记录,在具有发言者的较少移动的会议环境中,可以在将误差范围设置为较小(例如,+/-15°)的静态模式中执行声音记录。因此,在本发明实施例中,可以将在预定误差范围内具有不同方向的音源识别为相同的发言者(用户)。该误差范围可以根据用户或电子装置400的设置而不同地变化。
图10至12为示出根据本发明实施例的在电子装置中实时区分发言者的操作的示图。
图10示出执行对4个发言者(即,用户A、用户B、用户C和用户D) 的声音记录的示例,其中水平线表示经过时间,垂直线表示每个发言者位置 (识别方向的角度)。根据本发明实施例,可以每特定时段(例如,10ms)1 帧地采集方向数据。
在本发明各个实施例中,在执行声音记录时,可以通过特定发言者发言或通过多个发言者同时发言,或者可能产生各种情况,例如,在特定时间没有发言、发言者移动或者产生噪声。例如,声音记录可以包括噪声段910、同时发言段920、无声段930以及发言者移动段940,如图10所示。
根据本发明各个实施例,噪声段910可以表示其中输入方向在特定时间 (例如,30ms)变化的段。电子装置400可以将噪声段中的声音信号识别为噪声或无意义的语音。例如,在本发明各个实施例中,如果从相同的发言者区域产生具有与之前声音的平均角度的较大差的声音,则可以将该声音处理为噪声。根据本发明实施例,电子装置400可以将具有小于预定大小的声音的值的声音或具有与之前声音的平均角度的较大差的声音处理为噪声或无意义的语音。
根据本发明各个实施例,同时发言段920可以表示这样的段,其中在大于特定时间(例如,1ms)的时间中重复进行一个以上发言者之间的变化(例如,方向变化)。例如,如图11所示,如果产生在一个以上声音方向之间的互换,则电子装置400可以识别同时发言段920。根据本发明实施例,当在特定时间中对于多个发言者重复角度变化,则电子装置400可以识别同时发言段920。
根据本发明各个实施例,无声段930可以表示其中输入声音被测量为具有小于基值(例如,20dB)的值的段。如果从多个麦克风没有输入声音,或者输入的声音强度被测量为具有小于预定值的值,则电子装置400可以确定无声段。
根据本发明各个实施例,发言者移动段940可以表示其中来自相同发言者区域的输入角度在预定值内变化的段。如果在发言段中的平均角度值在临界值内变化,则电子装置400可以识别发言者移动段940。参考图12描述示例。这里,假设当对用户A(角度30°)、用户B(角度180°)和用户C(角度230°)的每个发言者执行声音记录时,当前输入的声音角度为167°。
根据本发明各个实施例,如图12所示,如果输入声音,则电子装置400 可以识别用户A、用户B和用户C的发言者区域(方向)。例如,输入声音的角度167°在用户B的方向角度180°的容差范围(例如,+/-10°)内,从而可以被识别为属于用户B的发言者区域(方向)。电子装置400可以比较输入声音角度167°与最近角度(例如,最近5个角度)的平均值(例如,170°),如果角度167°在平均值(例如,170°)的容差范围(例如,+/-10 °)内,则确定在用户B的方向(发言者区域)产生移动。根据本发明各个实施例,从最近角度中排除最早的角度,计算其余4个角度的中值,并通过将其添加到其余角度计算最近的角度的平均值。例如,在图12的示例中,从用户B的最近的角度168°、172°、170°、175°和179°中除去最老的角度168°,并通过对其余角度172°、170°、175°和179°添加中值174°来计算平均值。另外,如果随后输入的声音角度为163°,则可以识别在用户B的发言者区域中产生移动,因为输入声音角度163°在平均值170°的容差范围(例如,+/-10°)内。
根据本发明各个实施例,为了识别为相同的发言者,在特定角度容差范围(例如,+/-5°、+/-10°和+/-15°)内检测的发言者区域可以被识别为相同的发言者,这样的容差范围可以由用户分别设置或改变。
根据本发明各个实施例,如上所述,可以在相同的发言者区域在特定时间(例如,1s)内产生无声段。例如,如图10的附图标记950所示,如果在用户C的发言段中的特定时间(例如,1s)内产生无声段,并且用户C与之前和之后的发言者相同,则不将对应的段处理为无声段,而是将其识别为相同发言者的连续发言段950。根据本发明实施例,如果无声段在发言者区域中持续小于特定时间,并且发言者与之前和之后的发言者相同,则电子装置400可以识别相同的发言者的连续发言段950。
类似地,根据本发明各个实施例,电子装置400可以通过跟踪输入语音识别发言者位置,并基于累积方向变化、时间或音量中的至少一个实时区分多个发言者的发言和发言者移动。
图13为示出根据本发明实施例的在电子装置中区分发言者的操作的示图。
参考图14,通过当在电子装置400中执行语音记录时使用发言者识别,如果一个以上的发言者区域被识别为相同的发言者,则补偿发言者区域。例如,如图13所示,由于相同的发言者在发言时的移动,可从一个以上的区域 1210和1230输入声音。
在本发明各个实施例中,如果由于在识别发言者和基于方向的发言者区域时由于发言者的移动从相同的发言者识别一个以上的区域1210和1230,则电子装置400可以将一个以上的区域1210和1230识别为相同发言者的区域1200。根据本发明实施例,电子装置400可以通过使用发言者识别来识别相邻区域1210和1230是否与相同发言者的区域1200对应,并且,如果相邻区域1210和1230与相同发言者的区域1200相同,则电子装置400可以通过相同的声道合成从相邻区域1210和1230输入的声音信号。
另外,根据本发明实施例,当多个发言者进行发言时,可以基于方向分别分割发言者区域,并且可以基于分割的区域执行发言者识别。
图14为示出根据本发明另一个实施例的在电子装置中区分发言者的操作的示图。
参考图14,如果由于电子装置400在执行通过使用特定传感器执行语音记录时的旋转或移动而从相同的发言者识别一个以上的发言者区域,则电子装置400执行补偿操作。在本发明各个实施例中,特定传感器可以包括以下至少一个:陀螺仪传感器、高度传感器、方向传感器或者角速度传感器。
例如,如图14所示,电子装置400在执行声音记录时可以旋转或移动。在本发明各个实施例中,如果在执行声音记录时产生姿势(例如,旋转或移动)的变化,则电子装置400可以通过使用特定传感器识别其自身的旋转角度(例如,25°)。电子装置400可以对每个发言者区域的方向(角度)施加旋转角(例如,25°),并识别发言者。
图15至18为示出根据本发明实施例的电子装置中的用于显示声音记录功能的界面的示图。
图15示出在通过电子装置400执行的声音记录模式(例如,会议模式) 中提供的屏幕界面的示例。图15示出在声音记录模式中在执行声音记录之前的屏幕示例。如图15所示,屏幕界面被分割为发言者信息区域1410和控制区域1430。发言者信息区域1410可以提供在执行声音记录时识别的发言者信息和当前识别的发言者的发言者信息。在本发明各个实施例中,可以使用诸如文本、图形(图标、照片或图像)、视频及其组合的对象来显示发言者信息。控制区域1430提供与声音记录有关的时间信息1431、文件信息1433和控制信息1435。
根据本发明各个实施例,在显示如图15所示的屏幕界面的状态中,用户可以通过使用与声音记录有关的控制信息1435执行声音记录。例如,用户可以通过使用用于开始和结束声音记录的按钮1437启动声音记录功能。电子装置400可以响应于用户对声音记录功能的启动执行声音记录功能,并相应地显示图15所示的屏幕界面。
参照图16,电子装置400可以通过时间信息1431显示根据声音记录的经过时间。电子装置400可以通过发言者信息区域1410以预定对象显示在声音记录中识别的发言者信息。例如,假设3个发言者参与讨论,因为全部发言者在声音记录中发言,故全部发言者被识别。
在该情况中,如图16所示,可以在发言者信息区域1410中显示与多个发言者对应的3个对象1510、1520和1530。另外,对象1510、1520和1530 可以被布置为使得它们具有与识别的发言者对应的方向。例如,如上所述,电子装置400可以从输入音源分析发言者区域,并在与分析的发言者区域相应的方向的发言者信息区域1410中显示每个发言者的对象1510、1520和1530。根据本发明实施例,如图16所示,对象1510可以表示识别的用户A的发言者信息,对象1520可以表示识别的用户B的发言者信息,以及对象1530可以表示识别的用户C的发言者信息。
在本发明各个实施例中,当根据声音记录功能识别发言者时,电子装置 400可以在与识别的发言者的顺序对应的发言者区域中显示预定视觉信息。例如,电子装置400可以在发言者信息区域1410的对应位置显示首先识别的发言者的基于文本的语音1和基于图形的用户项(例如,对象1510)、在对应位置显示第二识别的发言者(例如,用户B)的语音2和诸如对象1520的用户项、以及在对应位置显示第三识别的发言者(例如,用户C)的语音3 和诸如对象1530的用户项。
在本发明各个实施例中,当通过发言者信息区域1410显示对象1510、 1520和1530时,电子装置400可以通过区分发言者显示发言状态。例如,电子装置400可以区分进行发言的发言者和不发言的发言者。根据本发明实施例,在图16的示例中,对应的发言者(例如,分别为用户A和用户C)的对象1510和1530表示不发言的状态,并且对应的发言者(例如,用户B) 的对象1520表示发言的状态。如果在进行声音记录时识别至少一个发言者,则电子装置400可以通过不同地可视化来显示与其它对象不同的识别的发言者的发言者区域的对象。根据本发明各个实施例,通过可视化颜色、亮度、凹雕/浮雕和形状(形状变化)、高光,或者通过根据发言者的发言状态添加项(例如,发言状态图标),可以不同地显示对应的对象。
根据本发明各个实施例,用户可以通过如图17所示的发言者信息区域 1410不同地改变表示每个发言者的对象(发言者信息)。例如,参考图18,在通过发言者信息区域1410显示参与声音记录的用户(例如,用户A、用户 B、用户C)的对象1510、1520和1530(例如,文本信息和/或诸如语音1、语音2、语音3的项和每个图形项)的状态中,用户可以选择特定对象。在本发明各个实施例中,可以基于根据预定触摸类型的用户输入和根据物理按钮的用户输入执行对特定对象的选择。例如,可以根据预定触摸类型,诸如对对象的长按压、短按压或双按压,或者通过物理按钮(例如,方向/移动按钮和选择按钮),不同地执行用户输入。
参照图17和18描述根据在发言者信息区域1410中显示的对象来改变发言者信息的示例。
根据本发明各个实施例,如图17所示,用户可以基于预定用户输入(例如,长按压)选择与用户C对应的对象1530。如果在执行声音记录时通过对象1530检测到用户输入,则电子装置400可以识别对编辑模式的执行。电子装置400可以响应于用户输入切换到用于对象编辑的屏幕界面。例如,包括语音3的文本窗口1650可以显示为使得:可以编辑选定对象1530(例如,语音3)的文本,并且另外或可选地,可以显示用于改变用户项的弹出窗口。用户可以在显示文本窗口1650的状态中改变对象1530的发言者信息。根据本发明实施例,如图17所示,用户可以将“语音3”改变为“Jerry”。如果根据该操作完成对发言者信息的改变,则在屏幕界面中可以以Jerry替换语音 3。类似地,根据用户选择,还可以将用户项改变为各个图形图像。
根据本发明各个实施例,可以通过与电话簿同步来执行对发言者信息的改变。例如,电子装置400可以响应于用户输入显示电话簿列表,并且用户可以从电话簿选择对应发言者(例如,对象1530的发言者)的项。电子装置 400可以响应于项的选择提取联系信息(例如,姓名/昵称、电话号码以及图像),并根据联系信息的预定优先级(例如,姓名/昵称>图像>电话号码)自动改变对应项。图18示出这样配置的屏幕界面的示例。
如图18所示,根据本发明各个实施例,可以将图16的对象1520和1530 改变为对应发言者(例如,用户B、用户C)的姓名(例如,Jack和David)。
根据本发明各个实施例,电子装置400可以基于在声音记录中识别的发言者语音和施加于电子装置400的电话簿的RSC信息来提取对方发言者的富通信套件(RCS)信息(例如,通过各种通信服务获得的各个用户信息,诸如图像、姓名/昵称、消息、视频或社交信息),并根据提取的RCS信息自动改变对应发言者的对象。
图19为示出根据本发明另一个实施例的显示电子装置中的声音记录功能的示图。
图19示出根据在电子装置400执行的声音记录模式(例如,采访模式) 提供的屏幕界面的示例。特别是,图19示出当基于电子装置400中的采访模式执行声音记录功能的情况,并且可以与在电子装置400中对声音记录功能的上述操作对应地执行声音记录。根据本发明实施例,在可以区分发言者的采访模式的情况中,可以通过使用安装在电子装置400的上表面和下表面中的两个扬声器单元使用2个声道(例如,L声道和R声道)执行声音记录,并且可以通过使用安装在电子装置400的上侧和下侧的2个扬声器使用固定波束形成系统执行声音记录。在采访模式中,可以通过将上侧的扬声器区分为L声道和将下侧扬声器区分为R声道来执行立体声音记录。
根据本发明各个实施例,可以根据用户的各个声音记录环境提供各种声音记录界面。图15至18的屏幕界面表示根据会议模式(或讨论模式)的界面示例,图19的屏幕界面表示根据采访模式(或单方向声音记录模式)的界面的示例。因此,可以改善与声音记录环境对应的声音记录功能,并且可以容易地执行对用户模式的识别。
根据本发明实施例,会议模式灵敏地响应于在多个方向(例如,0°到 360°)的多个麦克风的声音,电子装置400可以以全部麦克风的相同量的声音执行声音记录。另外,根据本发明各个实施例,采访模式可以是这样的模式,其中执行声音记录使得麦克风响应于根据采访特征的一个方向的声音,例如,集中记录在电子装置400的前方的声音。另外,根据本发明各个实施例,可以不同地修改声音记录模式和界面。
图20为示出根据本发明实施例的电子装置中的用于显示声音记录文件的列表的界面示例的示图。
参考图20,如上所述,示出用于显示根据执行声音记录模式(例如,普通模式、会议模式和采访模式)记录的声音记录文件的列表的界面的示例。根据本发明各个实施例,可以通过区分声音记录模式来显示声音记录文件。
例如,如图20所示,可以在列表的特定区域显示与声音记录模式对应的识别图标(例如,麦克风图标1910和指示多个用户的图标1930)。例如,麦克风图标1910指示声音记录文件为在采访模式的环境中记录的文件,并且指示多个用户的图标1930指示在会议模式的环境中记录声音记录文件。用户可以通过选择声音记录文件播放特定声音记录文件并收听对应的声音。
图21为示出根据本发明实施例的播放电子装置中的声音记录文件的过程的流程图。
参考图21,在步骤2001,AP 210从声音记录文件列表检测对特定声音记录文件的选择。例如,用户可以从通过图20的示例示出的声音记录文件列表选择将播放的特定声音记录文件,电子装置400可以识别对响应于选择的声音记录文件的声音记录文件的回放。
根据本发明各个实施例,在步骤2003中,AP 210显示与选定声音记录文件的声音记录模式对应的界面。例如,如果选择了声音记录文件,则AP 210 可以分析声音记录文件,从声音记录文件的分析结果区分声音记录模式(例如,采访模式和会议模式),并区分参与对应声音记录模式的声音记录的发言者。根据本发明实施例,可以以指示声音记录环境(例如,会议模式或采访模式)的特征的信息(例如,文件头中的模式信息)产生声音记录文件。AP 210可以通过分析声音记录文件的信息显示与声音记录界面(例如,用于声音记录环境(会议模式或采访模式)的界面)对应的回放界面。这里,可以通过包括在声音记录文件中区分的全部发言者信息显示回放界面。在本发明实施例中,在播放声音记录文件时,控制单元480可以通过基于存储在声音记录文件中的发言者的位置信息识别每个发言者的方向(例如,通过识别发言者区域)而显示。
根据本发明各个实施例,在步骤2005中,AP 210通过回放输出选择的声音记录文件。例如,AP 210可以根据进度时间播放声音记录文件,通过与回放对应的界面输出视觉信息,以及通过扬声器单元输出声学信息。根据本发明实施例,AP 210可以通过视觉反转(visual reversing)区分发言者而在界面中显示当前播放段的发言者区域,并通过扬声器单元输出发言者的对应声音(语音)。尽管图中未示出,根据本发明各个实施例,在选择声音记录文件时,可以接收通过界面的发言者区域中的各个发言者的用于选择性回放的用户输入,并且可以与用户输入对应地处理选定发言者区域的回放段。
根据本发明各个实施例,在步骤2007中,AP 210确定在回放声音记录文件时是否检测到无声段。在本发明各个实施例中,可以根据用户设置、电子装置400的设置或跳过无声段的可选设置来处理无声段。
根据本发明各个实施例,如果未检测到无声段,则AP 210前进到步骤 2013。
根据本发明各个实施例,如果检测到无声段,则在步骤2009中,AP 210 可以跳过无声段,并在步骤2011中控制对下一段(例如,发言段和同时发言段)的回放和输出。例如,如果在回放声音记录文件时检测到无声段,则AP 210可以检查检测到的无声段的端点,通过跳到检测的无声段的端点而跳过无声段,以及播放并输出在无声段之后的段。尽管图中未示出,根据本发明各个实施例,可以根据用户设置(选择)确定对无声段的跳过。根据本发明实施例,如果检测到无声段,则AP 210可以识别跳过选项的设置状态,如果跳过选项被激活,则跳过无声段。可选地,根据本发明各个实施例,如果检测到无声段,则AP 210可以通过预定弹出窗口请求与跳过无声段对应的用户选择,并根据结果确定对无声段的跳过。
根据本发明各个实施例,在步骤2013中,AP 210确定在回放声音记录文件时用户是否选择段。在本发明各个实施例中,用户可以在回放声音记录文件中选择特定发言者的回放段,并且电子装置400可以响应于用户选择处理各个发言者的选择性回放。
根据本发明各个实施例,如果未检测到对段的选择,则AP 210前进到步骤2017。
根据本发明各个实施例,如果检测到对段的选择,则在步骤2015中, AP 210控制对选定段的回放和输出。例如,AP 210可以控制与选定段的发言者对应的视觉和声学输出。
根据本发明各个实施例,在步骤2017中,AP 210确定对声音记录文件的回放是否完成。在本发明实施例中,回放的完成可以包括通过用户强制终止和由于到达声音记录文件尾部而自动终止。
根据本发明各个实施例,如果对声音记录文件的回放未完成,则AP 210 返回到步骤2005。
根据本发明各个实施例,如果对声音记录文件的回放完成,则在步骤2019 中,AP210执行对应的功能。例如,响应于回放的完成,AP 210可以显示上述声音记录文件列表,或停止回放操作,但是保持对回放模式屏幕显示。
根据本发明各个实施例,响应于对声音记录文件的回放,AP 210可以提供与回放对应的包括多个发言者的发言者区域的用户界面。根据本发明各个实施例,AP 210可以在进行回放时执行根据各个发言者的回放段输出至少一个发言者的语音的操作,并在用户界面中与语音输出一起提供与至少一个发言者对应的更新发言者区域。根据本发明各个实施例,更新操作可包括识别与输出语音对应的发言者区域的操作以及输出通过基于识别结果进行视觉修改而在用户界面中识别的发言者区域的操作。根据本发明各个实施例,AP 210可以通过包括发言者信息、发言者的方向信息和发言者的距离信息的至少一个执行在用户界面中显示的操作。
图22和23为示出根据本发明实施例的电子装置中的用于声音记录文件的回放界面的示图。
图22和23示出播放声音记录文件的示例,其中在如图15至18所示的电子装置400的声音记录模式(例如,会议模式)中基于3个发言者记录所述声音记录文件。在本发明各个实施例中,用于播放声音记录文件的回放界面被分割为发言者信息区域2100和控制区域2200。根据本发明各个实施例,回放界面还可以包括列表区域2150。
根据本发明各个实施例,发言者信息区域2100可以包括参与声音记录的发言者的信息,并且可以通过区分在当前回放时间进行发言的发言者进行显示。在本发明各个实施例中,可以以诸如文本、图形(图标、照片和图像)、视频或其组合的视觉对象显示发言者信息。根据本发明实施例,AP 210可以通过视觉反转区分发言者而通过发言者信息区域2100显示与当前播放的段对应的发言者区域。根据本发明各个实施例,可以通过颜色视觉化、亮度视觉化、凹雕或浮雕视觉化、形状视觉化、高光视觉化或添加项(例如,发言状态图标)中的至少一个不同地显示与回放段相应的发言者区域中的对象。
根据本发明实施例,AP 210可以通过视觉反转区分而在界面中显示与当前播放段对应的发言者区域,并通过扬声器单元输出对应发言者的记录声音 (语音)。
根据本发明各个实施例,控制区域2200可以提供与回放有关的各种信息。根据本发明实施例,控制区域2200包括:用于设置剪切2151、重复2153、回放速度2155、跳过无声段2157以及加书签2159的各个功能的功能项2250;指示回放的进度状态的进度条2260;以及用于选择声音记录文件(例如,上一个文件或下一个文件)和从回放、暂停和停止中选择一个的控制项2270。根据本发明各个实施例,可以通过区分每个发言者的发言段2265和无声段2267来显示进度条2260,还可以加入同时发言段。根据本发明实施例,可以通过进度条2260视觉提供当前正在播放的段的时间信息、总播放段的回放信息2263以及指示回放进度状态的状态条2269。
根据本发明各个实施例,列表区域2150可以显示关于位于从用于回放的列表选择的声音记录文件相邻的声音记录文件(例如,前一个或后一个声音记录文件)的信息。根据本发明实施例,当如图20所示根据声音记录文件的选择(例如,语音2)执行回放时,可以在用于选择的声音记录文件的延长列表示图中显示回放界面,并且可以与延长列表示图相邻地显示列表的部分。可以根据回放界面的提供形式、用户设置或电子装置400的设置选择性地显示列表区域2150。
根据本发明各个实施例,图22示出回放界面的示例,所述界面的声音记录文件以类似于图16所示的方式被播放,该声音记录文件在不编辑(修改) 发言者信息的情况下被存储。例如,配置有视觉信息(其被自动分配给在电子装置400中识别的发言者)的对象(例如,根据识别顺序自动分配的文本,诸如,语音1、语音2和语音3,以及不变用户项)可以与其各自方向有关地被显示。
根据本发明各个实施例,图23示出回放界面的示例,其中声音记录文件以类似于图17和图18所示的方式被播放,该声音记录文件在通过与用户或电话簿同步而编辑(修改)发言者信息的情况下被存储。例如,参考图23,配置有通过用户设置或电话簿同步化修改的视觉信息的对象(例如,指示发言者姓名(诸如David、Jack和Donna)的编辑文本,以及编辑用户项(通过各个发言者的图像))可以与其各自的方向有关地被显示。
根据本发明各个实施例,电子装置400可以在播放声音记录文件时编辑发言者信息。用于在播放声音记录文件时编辑发言者信息(对象)的操作可以对应于图17和18中的描述。例如,用户可以选择将编辑的发言者信息的对象,并基于根据用户选择提供的弹出窗口或电话簿列表来修改选择的对象的文本和/或用户项。
图24为示出根据本发明实施例的电子装置中的用于声音记录文件的回放界面的示图。
参考图24,在回放声音记录文件时,可通过进度条2260显示通过各个发言者区分的视觉信息。根据本发明实施例,如图24所示,可以以不同颜色显示与每个发言者对应的回放部分2310、2320、2330、2340和2350。另外,根据本发明各个实施例,可通过重叠至少两种与发言者的每个回放部分对应的信息来显示同时发言段2330,其中多个发言者同时发言。
图25为示出根据本发明实施例的电子装置中的用于控制对声音记录文件的回放的操作的示图。
参考图25,当播放声音记录文件时,用户可以通过以各种方法(例如,通过各个发言者的选择性回放、同时回放或发言者跳过回放)选择对象或进度条来控制对声音记录文件的回放。即,用户可以通过区分每个发言者执行对声音记录文件的回放。
例如,用户可以从发言者信息区域2100中的对象2410、2420和2430中选择至少一个对象,并且电子装置400可以控制与由用户选择的至少一个对象对应的视觉和声学输出。根据本发明实施例,如果用户选择对象2420和 2430,则电子装置400可以从声音记录文件提取与选择的对象2420和2430 对应的发言者信息,根据发言者信息区域2100中对与对象2420和2430对应的回放段设置的视觉信息与对象2410不同地显示选择的对象2420和2430,并输出对与对象2420和2430对应的回放段设置的声音(语音)。另外,电子装置400可以控制使得在进度条2260中仅显示选择的对象2420和2430的回放段。
根据本发明各个实施例,用户可以从进度条2260中的通过各个发言者的回放段选择特定回放段,并且电子装置400可以响应于用户选择控制用于与从发言者信息区域2100中的对象2410、2420和2430选择的回放段对应的发言者的对象的视觉输出,并控制对记录的声音(语音)的输出。
另外,根据本发明各个实施例,用户可以通过从发言者信息区域2100中的对象2410、2420和2430选择至少一个对象而确定跳过回放。电子装置100 可以响应于用户选择跳过对从声音记录文件的全部回放段选择的对象的回放。例如,如果在播放声音记录文件时检测到设置为跳过的对象的回放段,则跳过对应的回放段并播放下一个回放段。
在本发明实施例中,可以以预定视觉信息显示由用户设置为跳过的对象。根据本发明实施例,可以根据用于设置对对象的跳过的识别信息改变对对象 2410的显示。
根据本发明各个实施例,如图25所示,可以通过从发言者信息区域2100 选择对象或从进度条2260选择回放段,可以开或关对对应对象的语音回放。即,在本发明实施例中,可以进行通过各个发言者的选择性回放(或音轨),并且可以视觉显示选择的发言者区域。尽管在图中未示出,根据本发明各个实施例,可以通过控制对发言者信息区域2100中的具有方向分量的对象的选择和移动(例如,拖动&下拉)而改变对象的位置,并且可以在声音记录文件中保存改变的位置的方向。另外,根据本发明各个实施例,可以组合多个对象,并且,由于每个对象具有方向信息(位置信息),从而可以支持3维声音回放。
另外,根据本发明各个实施例,当在显示回放界面的状态中播放声音记录文件时,用户可以控制每个发言者的音量,如图25所示。例如,当选择对象2420时,用户可以通过预定用户输入(例如,基于触摸的手势或用于音量控制的功能按钮)增大或减小选择的对象2420的音量。如果通过用户改变特定对象的音量,则电子装置400在回放对应对象的段时可以以改变的音量输出声音。
图26和27为示出根据本发明实施例的电子装置中的用于控制对声音记录文件的回放的操作的示图。
参考图26和27,在播放声音记录文件时,可通过使用存储在对应的声音记录文件中的发言者位置信息来显示各个发言者的方向。可以通过视觉化如上所述基于在发言者信息区域2500中设置的对象而执行对每个发言者的方向的显示。另外,根据本发明实施例,用户可以执行各个发言者的选择性回放、对对象位置的改变、通过从发言者信息区域2500选择至少一个对象来编辑发言者信息。
根据本发明各个实施例,图26和27的对象2520和2530为根据基础设置的发言者信息,并且对象2510和2540指示通过用户的对发言者信息(例如,名称和图像)的编辑状态。
图26示出通过从发言者信息区域2500选择全部对象2510、2520、2530 和2540来执行回放的状态。在该情况中,可以在进度条2600中视觉显示与全部对象2510、2520、2530和2540对应的全部回放段。
图27示出通过从发言者信息区域2500选择特定对象2530和2540用于选择性回放各个发言者而执行回放的状态。在该情况中,可以在进度条2600 中视觉显示与选择的对象2530和2540对应的回放段,并且可以省略对未选择的对象2510和2520的回放段的显示。
类似地,根据本发明各个实施例,可以通过根据从发言者信息区域2500 选择的对象动态改变而显示进度条2600中的回放段。根据本发明各个实施例,可以通过与从进度条2600的对回放段的选择对应地进行视觉反转而显示与从发言者信息区域2600选择的回放段对应的对象。即,根据本发明各个实施例,可以通过使用发言者信息区域2500或进度条2600支持、并通过对发言者信息区域2500与进度条2600的同步化而直观显示对每个发言者的选择性回放。
图28和29为示出根据本发明实施例的电子装置中的用于控制对声音记录文件的回放的操作的示图。
参考图28和29,在播放声音记录文件时,可以以基于各种图表(例如,条形图表、图形图表、带形图表、饼状图表或折线图表)、颜色和图标的各种信息视觉显示进度条2800。
例如,如图28和29所示,可以测量在声音记录段中的发言者或音量强度之间的频率切换,并且可以通过使用图表2810、颜色2820和图标2830基于测量结果视觉显示其中产生争论的段。根据本发明实施例,可以将其中放置图标2830并且图表2810的高度最大的进度条2800的段指示为其中在声音记录期间多个发言者进行争论的段(例如,争论段),并且可以根据参与发言段的发言者的数目不同地显示所述段。
另外,根据本发明各个实施例,可以根据对发言者的选择不同地显示进度条2800的视觉信息,如图28和29所示。例如,图28示出其中在从发言者信息区域2700选择全部对象2710、2720、2730和2740的状态中执行回放,并且可以以与全部对象2710、2720、2730和2740对应的视觉信息显示进度条2800的情况。图29示出其中在通过用户从发言者信息区域2700选择特定对象2730和2740的状态中执行回放,并且可以以与选定对象2730和2740 对应的视觉信息显示进度条2800的情况。根据本发明实施例,图29中的发言者的语音的数目小于图28中的数目,从而可以在进度条2800中不同地显示图表2810、颜色2820和图标2830(例如,可以以较低复杂度显示)。
另外,根据本发明各个实施例,在播放声音记录文件时,可以在与各个发言者的回放段(例如,特定发言者的发言的段)对应的发言者信息区域2700 中以高光效果显示对象,并且可以在与其中一个以上发言者进行发言的回放段(例如,通过多个发言者的同时发言段)对应的发言者信息区域2700中以高光效果显示多个对象。
图30为示出根据本发明实施例的电子装置中的用于控制对声音记录文件的回放的操作的示图。
根据本发明各个实施例,在播放声音记录文件时,可以提供通过识别发言者语音显示文本消息的功能(例如,会议记录准备功能或语音至文本(STT) 功能)。例如,如果在对应发言者的发言者信息中包括STT信息或者在播放声音记录文件时通过用户请求会议记录准备功能(STT功能),则可以通过如图30所示进行同步而与回放段的语音相应地显示文本信息。
参考图30,电子装置400可以在播放声音记录文件时自动地或根据用户请求来执行会议记录准备功能,并通过识别输入语音和转换为文本来显示对应的文本信息。可以通过替换发言者信息区域以谈话消息显示系统(例如,基于发言气泡的谈话形式)区分各个发言者而显示文本信息。在本发明实施例中,可以通过替换发言者信息区域显示文本信息。在本发明实施例中,可以以通过各个发言者区分的视觉信息提供具有谈话形式的发言气泡。根据本发明实施例,可以不同地表述各个发言者的发言气泡的颜色和形状。
另外,根据本发明各个实施例,可以基于各个发言者的文本信息和对每个对象设置的发言者信息(例如,姓名和图像)提供用于识别发言者的信息。另外,根据本发明各个实施例,可以在编辑后存储图28所示的文本。
另外,根据本发明各个实施例,通过将用户或发言者设置为希望位置的主体并在显示文本时输入其它文本而将会议的内容添加到声音记录文件中,如图30所示。根据本发明实施例,电子装置400可以执行在添加文本时将输入文本转换为语音(例如,文本至语音(TSS))的功能。电子装置400可以通过根据用户设置将转换的语音映射到发言者而存储具有转换的语音的声音记录文件。
图31为示出根据本发明实施例的当播放电子装置中的声音记录文件时显示的界面的示图。
图31示出根据本发明各个实施例的用于播放以采访模式记录的声音记录文件的屏幕界面。根据本发明各个实施例,可以提供各种回放界面。
例如,图22至30示出本发明各个实施例中的用于会议模式(或交谈模式)的屏幕界面,以及图31示出本发明各个实施例中的用于采访模式(或单方向声音记录模式)的屏幕界面。当播放采访模式的声音记录文件时,可以另外执行上述与电子装置400的回放功能有关的操作。
图32为示出根据本发明实施例的在电子装置中的显示发言者信息的示例的示图。
根据本发明各个实施例,当记录声音或播放声音记录文件时,可以通过基于方向信息布置而显示发言者信息。根据本发明实施例,发言者信息可以如上所述以圆形形式指示方向。然而,本发明不限于此,而可以以各种图形形式(诸如图32所示的会议桌形式)显示发言者信息。
参考图32,当记录声音或播放声音记录文件时,可以通过使用方向信息和发言者的距离信息显示发言者的座位的布置。在本发明各个实施例中,可以在声音记录文件中记录发言者的方向信息和距离信息。电子装置400可以通过使用跟踪的发言者的方向信息并通过在屏幕中心布置诸如圆形或多角形的图形来显示对座位的布置。
根据本发明各个实施例,电子装置400可以根据参与声音记录的发言者的数目和发言者的位置自动绘制适当形状的桌子。根据本发明各个实施例,可以自动将桌子绘制为圆形或多角形(例如,三角形、长方形和五角形),并且可以根据用户设置或电子装置400的设置或根据参与电子装置400的声音记录的发言者的数目、发言者方向和发言者方向将桌子配置为特定形状。
另外,根据本发明实施例,用户可以以用户希望的特定图形形式选择或修改座位布置。根据本发明实施例,电子装置400可以基于方向信息和距离信息自动生成圆桌形状,并在圆周中显示发言者信息。如图33所示,用户可以通过将由电子装置400自动生成的圆桌形变为多角桌形状而显示发言者信息。
图33为示出根据本发明实施例的通过同步电子装置来记录语音的操作的示图。
图33示出根据本发明各个实施例的通过利用无线和/或有线通信同步多个电子装置(例如,第一电子装置3210、第二电子装置3220、第三电子装置 3230以及第四电子装置3240)执行语音记录的操作。
在本发明各个实施例中,多个电子装置3210、3220、3230和3240可以包括多个麦克风以指示方向图,并在使用所述麦克风时执行声音记录。另外,多个电子装置3210、3220、3230和3240可以通过使用声音波束形成方法来执行声音记录。
在本发明各个实施例中,当通过同步化多个电子装置3210、3220、3230 和3240记录声音记录文件时,电子装置可以被分割为主机端和客户端,主机端可以控制关于声音记录的一般操作(例如,开始声音记录或结束声音记录)。可选地,每个电子装置在不分割为主机端和客户端的情况下可以作为主机端执行声音记录。可以根据用户选择从多个电子装置3210、3220、3230和3240 确定主机端,或者主机端可以被确定为首次执行声音记录的电子装置。
在图33的示例中,第一电子装置3210作为主机端操作,第二电子装置 3220、第三电子装置3230和第四电子装置3240作为客户端操作。
参照图33,在步骤3201,主机端3210开始声音记录,并通过有线或无线通信向连接到主机端3210的客户端3220、3230和3240发送用于开始声音记录的命令。客户端3220、3230和3240响应于从主机端3210接收的用于开始声音记录的命令开始声音记录。
根据本发明各个实施例,当停止(终止)声音记录时,在步骤3203,主机端3210通过有线或无线通信向连接到主机端3210的客户端3220、3230和 3240发送用于停止声音记录的命令,并且客户端3220、3230和3240响应于从主机端3210接收的用于停止声音记录的命令停止声音记录。在本发明实施例中,当停止声音记录时,在步骤3205中,客户端3220、3230和3240的每个向主机端3210发送声音记录文件。
根据本发明实施例,主机端3210可以打开/关闭对客户端3220、3230和 3240的每个的麦克风输入。当打开/关闭对客户端3220、3230和3240的麦克风输入时,主机端3210向客户端3220、3230和3240发送主机端3210的时间戳。具有根据主机端3210的控制打开的麦克风的客户端3220、3230和3240 可以基于从主机端3210接收的时间戳开始声音记录。另外,具有根据主机端 3210的控制关闭的麦克风的客户端3220、3230和3240可以基于从主机端 3210接收的时间戳停止声音记录并产生声音记录文件。
根据本发明各个实施例,如果从客户端3220、3230和3240接收声音记录文件,则主机端3210可以通过将声音记录文件集成到单个声音记录文件中而管理声音记录文件,这将在下文更详细地描述。
根据本发明各个实施例,可通过各种应用系统(诸如图33所示的系统) 执行用于通过同步多个电子装置记录声音的方法。例如,根据本发明各个实施例,可以响应于通过每个电子装置3210、3220、3230或3240的声音记录按钮的用户输入执行对声音记录的开始或停止,并且可以将记录直到声音记录结束的声音记录文件发送到主机端3210或全部同步的电子装置。每个接收声音记录文件的电子装置可以如主机端3210的操作通过将全部声音记录文件集成到单个文件而管理全部声音记录文件。
另外,根据本发明各个实施例,当通过同步多个电子装置执行声音记录时,可以使用分离的服务器(例如,服务器106)。例如,可通过分离的服务器执行主机端3210的作用。根据本发明实施例,多个电子装置3210、3220、 3230和3240可以根据用户输入或服务器或特定电子装置的控制开始或停止声音记录。当终止声音记录时,多个电子装置3210、3220、3230和3240可以将记录直到声音记录结束的声音记录文件发送到服务器。如果从多个电子装置3210、3220、3230和3240接收声音记录文件,则服务器(例如,服务器106)可以通过将接收的声音记录文件集成到单个声音记录文件而管理声音记录文件。
图34为示出根据本发明实施例的用于显示通过同步电子装置的声音记录功能的界面的示图。
在本发明该实施例中,用于通过同步电子装置记录声音并在电子装置400 中播放声音记录文件的界面可具有与上文详细描述的界面对应的配置。然而,通过同步电子装置提供的界面可以包括输入或编辑与区分电子装置的装置信息有关的其它操作。
参照图34,如上所述,可以基于视觉信息显示参与声音记录的电子装置的位置,并且可以根据通过用户设置的输入(例如,拖放)改变电子装置的位置。可以基于与基于电子装置的装置信息的电话簿匹配的信息来显示视觉信息(例如,电话号码、装置名称以及用户姓名)。根据本发明实施例,可通过读取对方发言者的RSC信息来显示社会信息或存在。另外,可以显示诸如发言者的照片、图像或姓名的信息。
另外,根据本发明实施例,通过同步电子装置记录声音的操作可以根据参与声音记录的电子装置的数目及其位置自动地或通过用户设置来绘制适当的桌子形状。例如,可以以圆形或多角形显示而显示装置信息。
另外,根据本发明实施例,作为主机端操作的电子装置可以根据用户输入排除客户端,并且被排除的客户端可以自动结束组联网。例如,参照图34,用户可以选择与至少一个客户端(例如,Jack)对应的对象3310,并执行预定用户输入(例如,基于轻击输入或功能按钮的触摸)。如果用户输入被识别,则电子装置400可以从界面删除选择的对象3310,并断连与选定对象对应的客户端。
另外,根据本发明实施例,作为主机端操作的电子装置可以添加新的客户端,并且添加的客户端可以自动加入组联网。例如,参考图34,用户可以在界面的空白区域3330执行预定用户输入(例如,基于触摸的长按压输入或功能按钮)。如果用户输入被识别,则电子装置400可以响应于用户输入与客户端连接,并根据在界面的空白区域3330的用户选择另外显示客户端的对象。根据本发明该实施例,电子装置400可以响应于在空白区域3330的用户输入显示相邻电子装置的电话簿列表,并且,如果客户端被选择,则发送用于加入特定客户端的请求消息。接收请求消息的电子装置可以通过以用户的确定响应而参与组联网。
另外,根据本发明实施例,当通过同步电子装置播放集成声音记录文件时,可通过区分电子装置控制回放。可通过包括上述回放控制操作执行用于播放声音记录文件的操作。例如,参考图32,可修改响应于对特定对象3350 的选择的通过用户选择的对象的信息,可以改变选择的对象的位置,可以跳过选择的对象的回放段,或者可以仅播放选择的对象的回放段。
根据本发明各个实施例,当播放声音记录文件时,如果以高于预定值的音量记录仅仅一个声音记录文件并以低于预定值的音量记录其它声音,则可将其它对象的声音调节至音量“0”或减小以消除回音、啸叫或剪裁效果。
图35至37为示出根据本发明实施例的放置参与声音记录的电子装置的位置的操作的示图。
参考图35至37,当在播放声音记录文件时显示参与声音记录的电子装置时,主机端可以使用客户端的方向信息和距离信息。在本发明实施例中,可以在声音记录文件中存储方向信息和距离信息。根据本发明各个实施例,客户端可以将从其它客户端接收的方向信息发送到主机端或服务器。接收每个客户端的方向信息的主机端或服务器可以在屏幕中央显示圆形或其它图形,如图35所示。
另外,根据本发明该实施例,除了识别方向信息之外,还可以通过使用由每个电子装置记录的声音记录文件的音量差来计算电子装置之间的距离。表2示出音量信息的示例。
表2
音量信息 | A | B | C | D | E |
A | 100 | 50 | 50 | 90 | 70 |
B | 60 | 100 | 90 | 60 | 80 |
C | 50 | 60 | 100 | 60 | 80 |
D | 90 | 50 | 60 | 100 | 80 |
E | 70 | 80 | 80 | 60 | 100 |
例如,当电子装置A的发言者进行发言时,每个电子装置可以对相同的语音数据记录声音。根据本发明实施例,当电子装置A的发言者进行发言时,电子装置A至E可以从电子装置A的发言者记录语音数据。参考表2,可以将由于电子装置A的发言者与电子装置A、B、C、D和E之间的距离差导致的音量差表达为:电子装置A>电子装置D>电子装置E>电子装置B>电子装置C。因此,如图37所示,可以基于根据距离和方向的音量差的累积数据预测座位放置。
图35示出其中电子装置A的发言者进行发言的情况。图36示出其中电子装置C的发言者进行发言的情况,以及图37示出其中电子装置B的发言者进行发言的情况。因此,基于根据电子装置A、B、C、D及E之间的距离差的音量差,每个发言者可以为区分的发言者,并且可以对应地支持通过各个发言者的声音记录和声音回放。
另外,根据本发明实施例,通过使用多个麦克风获得具有最大能量的方向中的角度信息,或者通过使用从多个麦克风接收的语音的相位差,可以估计方向信息。
另外,根据本发明该实施例,如果参与声音记录的电子装置位于附近,则可以通过如下操作自动绘制桌子形状:确定基本电子装置(例如,主机端),使用发送到基本电子装置的其它电子装置(例如,客户端)的音量信息和方向信息,以及识别其它电子装置的位置和方向。在本发明该实施例中,可使用音量信息用于识别到其它电子装置(例如,客户端)的距离,并且可以通过使用多个麦克风或声音波束形成方法识别方向信息。根据本发明各个实施例,如果难于识别特定电子装置(例如,客户端)的距离或方向,则可通过向对应的电子装置(例如,客户端)请求方向信息和音量信息来执行校正。
图38和39为示出根据本发明实施例的管理电子装置中的声音记录文件的操作的示图。
在本发明实施例中,声音记录文件可配置有通过多个麦克风的声音记录操作或者通过如上所述同步多个电子装置的声音记录操作而产生的多个声音记录数据。例如,通过多个麦克风产生的声音记录文件可具有图38中所示的格式,以及通过同步多个电子装置产生的声音记录文件可具有图39所示的格式。
参考图38和39,声音记录文件可配置有通过各个发言者或各个电子装置产生的声音记录数据。例如,如果参与声音记录的发言者的数目为N(大于1的自然数),则可以产生N条声音记录数据3710、3720、3730和3740。另外,如果参与声音记录的发言者的数目为M(大于1的自然数),则可以产生M条声音记录数据3810、3820、3830和3840。电子装置400可以将N或 M条声音记录数据管理为组(文件)或分离的文件。根据本发明实施例,电子装置400可以通过集成多个声音记录数据或产生与声音记录数据对应的多个声音记录文件来产生单个声音记录文件。
在本发明该实施例中,声音记录数据包括语音数据3715和3815、方向/ 距离信息3725和3825以及STT数据3735和3835。在本发明该实施例中,声音记录文件包括时间戳信息3750和3860,如果如图39所示基于对电子装置的同步记录声音记录文件,则声音记录文件还包括参与声音记录的电子装置的装置信息3850。
如上所述,在本发明实施例中,电子装置400可以基于通过多个麦克风或电子装置的多输入来独立或集成地管理通过各个发言者区分的多个声音记录数据。
下文中,参考通过同步多个电子装置执行声音记录并且主机端从客户端发送接收多个声音记录数据的情况来描述管理声音记录文件的操作。
根据本发明各个实施例,主机端可以通过集成为一个文件管理从客户端接收的多个声音记录数据。例如,可以在MPEG4载体(container)的第一区域(例如,mdat区域)存储代表性声音记录数据(例如,主机端的声音记录数据)的音轨,并且,可以在第二区域(例如,与第一区域不同的区域)中存储其它声音记录数据(例如,客户端的声音记录数据)的音轨。这里,主机端可以通过匹配第一区域和第二区域的声音记录数据进行管理以产生声音记录文件。当播放声音记录文件时,主机端可以同时播放全部声音记录数据的音轨。可选地,主机端可以通过单独地管理声音记录文件的声音记录数据而选择性地播放期望的声音记录数据的音轨。
另外,根据本发明各个实施例,主机端可以通过混合入音轨来管理从客户端接收的多个声音记录数据。例如,主机端可以通过混合其自身的声音记录数据和从客户端接收的声音记录数据来产生声音记录文件。可以通过将全部声音记录数据混合为单个声音记录数据而存储这样的声音记录文件,并且可以通过采样选择性地播放声音记录数据的音轨。
另外,根据本发明各个实施例,主机端可以通过MPEG4文件中的声道管理以存储从客户端接收的多个声音记录数据的音轨。当播放声音记录文件时,主机端可以播放MPEG4文件的全部声道或选择性地播放期望的声道。
另外,根据本发明各个实施例,主机端可以以初始状态保存从客户端接收的多个声音记录数据,并产生用于管理多个声音记录数据的特定分离文件。产生的特定文件可以包括多个客户端的装置信息和声音记录数据信息,还可以包括客户端的方向信息和距离信息。主机端可以同时播放多个声音记录文件。
另外,根据本发明各个实施例,当播放由主机端和客户端同时记录的多个声音记录数据时,可以支持混合回放或同时回放。例如,根据本发明各个实施例,可通过使用在时间同步之后合并、通过各个客户端选择性合并声音记录数据或者通过各个客户端优先合并声音记录数据的方法来播放原始状态的声音记录数据。通过选择由发言者在特定时间产生的客户端的声音记录数据并忽略其它客户端的声音记录数据来执行通过客户端选择性合并声音记录数据的方法。另外,通过对在特定时间产生发言的客户端的音量施加高加权值并对不产生发言的客户端的音量施加低加权值,执行通过各个客户端优先合并声音记录数据的方法。
图40为示出根据本发明实施例的处理电子装置中的STT功能的示图。
参考图40,通过将语音转换为文本,可以在声音记录文件中存储声音记录文件的至少部分声音记录数据。例如,如图40所示,可通过选择发言者(例如,发言者C)的发言段执行STT转换。在本发明实施例中,可通过从选定发言者的声音记录数据识别语音并将其转换为文本而执行STT转换。可在声音记录数据的特定区域存储转换的文本。根据本发明该实施例,如图38和 39所示,可以将从对应的声音记录数据的识别语音转换为文本的STT数据3735和3835包括在通过用户选择的声音记录数据的部分中。
根据本发明实施例,当播放包括STT数据的声音记录文件时,可以以信使的消息谈话类型视觉处理屏幕显示,如图30所示。另外,根据本发明实施例,STT数据允许通过各个发言者或电子装置选择发言段。可以根据选择性回放将对应段的语音转换为文本,并将其存储在声音记录文件的分配区域中。
图41至43为示出根据本发明实施例的共享声音记录文件的操作的示图。
参考图41至43,根据用户设置,可以将通过电子装置400产生且通过各个发言者区分的声音记录文件发送到其它电子装置(例如,图1的服务器 106或电子装置102和104)并与其共享。
根据本发明各个实施例,当从电子装置400将通过各个发言者区分的声音记录文件发送到其它电子装置时,可以在发送之前编辑声音记录文件,使得不支持回放具有区分的各个发言者的声音记录文件的电子装置可以播放该声音记录文件。这里,可以发送和共享原始声音记录文件和编辑声音记录文件二者。
例如,电子装置400可以从通过如图41所示各个发言者区分的原始声音记录文件产生如图42所示的与多个区分的发言者对应的多个划分的声音记录文件(编辑的声音记录文件)。电子装置400从原始声音记录文件(如图 41所示)产生多个划分的声音记录文件(如图42所示),并且可以选择性地与其它电子装置共享划分的声音记录文件和原始声音记录文件。
根据本发明各个实施例,接收划分的声音记录文件的其它电子装置可以通过顺序重排多个接收的声音记录文件来产生声音记录文件,从而使得可以顺序播放接收的声音记录文件,如图43所示。根据本发明各个实施例的电子装置可以基于原始声音记录文件共享和播放划分的声音记录文件。
根据本发明各个实施例的电子装置和用于操作电子装置的方法可以通过使用扬声器单元并播放通过各个发言者的声音记录文件来支持通过各个发言者的语音记录。另外,根据本发明各个实施例,可以通过集成声音记录文件支持通过同步多个电子装置的语音记录以及播放通过各个发言者的每个电子装置的声音记录文件。
根据本发明各个实施例,在通过使用电子装置记录语音时,可以确保声音记录的质量,并且,当播放声音记录文件时,用户可以通过由各个发言者区分的回放直观地识别声音记录环境。根据本发明各个实施例,在播放声音记录文件时,可以直观地显示参与声音记录的发言者的位置或方向信息和发言者信息,并且可以通过根据发言者的选择支持对声音记录文件的回放来改善声音记录功能。
根据本发明各个实施例,可以通过提供用于支持电子装置中的声音记录功能的优化环境来改善用户便利性,其有助于改善电子装置的实用性、可访问性、便利性和竞争性。
虽然已经参照本发明的特定实施例示出并描述本发明,但是本领域技术人员应理解:在不脱离由权利要求及其等同物限定的本发明的精神和范围的情况下,可做出在形式和细节方面的各种改变。
Claims (14)
1.一种用于操作电子装置的方法,所述方法包括以下步骤:
从声学信号识别发言者;
确定从电子装置到发言者的方向;
基于从电子装置到发言者的方向来提供针对声学信号的用户界面;以及
更新用户界面,
其中,更新用户界面的步骤包括:
当对声学信号执行声音记录时,以视觉形式显示发言者信息和方向信息;以及
当终止对声学信号的声音记录时,存储区分出的各个发言者的声音记录文件。
2.根据权利要求1所述的方法,其中,更新用户界面的步骤包括:
基于根据声学信号对发言者的识别来显示发言者信息。
3.根据权利要求1所述的方法,其中,存储声音记录文件的步骤包括:存储发言者的语音、发言者的方向信息以及发言者的距离信息,
其中,方向信息和距离信息是由电子装置识别出的,或者是从由多个电子装置识别出的值而获得的。
4.根据权利要求1所述的方法,其中,识别从电子装置到发言者的方向的步骤包括:
从声学信号识别方向;以及
根据识别的方向识别发言者的发言者区域。
5.根据权利要求4所述的方法,其中,识别发言者的方向的步骤包括:
通过使用多个麦克风获得具有高能量的方向的角度值,或者
使用到达语音之间的相位差。
6.根据权利要求4所述的方法,其中,识别发言者的方向的步骤包括:比较通过同步多个电子装置而采集的发言者的能量大小或音量大小。
7.根据权利要求4所述的方法,其中,识别发言者区域的步骤基于累积了预定时间的方向而被执行。
8.根据权利要求4所述的方法,其中,识别发言者区域的步骤包括:识别发言者的发言段、噪声段、同时发言段、无声段、发言者移动段或发言者的持续发言段。
9.根据权利要求1所述的方法,其中,显示发言者信息的步骤包括:
在执行声音记录时接收与发言者信息相关的用户输入;以及
响应于用户输入编辑发言者信息,
其中,编辑发言者信息的步骤包括:
根据发言者的移动来补偿发言者区域;以及
根据电子装置的移动来补偿发言者区域。
10.根据权利要求9所述的方法,其中,根据发言者的移动来补偿发言者区域的步骤包括:通过使用发言者识别来识别相同的发言者。
11.根据权利要求9所述的方法,其中,根据电子装置的移动来补偿发言者区域的步骤包括:通过使用特定传感器来补偿旋转角度或位移。
12.根据权利要求1所述的方法,其中,存储声音记录文件的步骤包括:存储发言者信息、发言者的语音信号、通过语音转文本(STT)功能转换的文本信息以及发言者的区域信息中的至少一个。
13.根据权利要求1所述的方法,还包括:与外部电子装置共享声音记录文件,其中,声音记录文件包括原始声音记录文件和划分的声音记录文件。
14.一种电子装置,包括:
多个麦克风,被配置为接收语音输入;
存储单元,被配置为存储声音记录文件;
显示单元,被配置为在记录声音或播放声音记录文件时视觉地显示各个发言者的发言者区域;以及
控制单元,被配置为当记录声音或执行对声音记录文件的回放时通过识别发言者方向来提供与到发言者的发言者方向相关的用户界面,并通过用户界面更新发言者信息、发言者的方向信息以及发言者的距离信息中的至少一个。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140114566A KR20160026317A (ko) | 2014-08-29 | 2014-08-29 | 음성 녹음 방법 및 장치 |
KR10-2014-0114566 | 2014-08-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105389099A CN105389099A (zh) | 2016-03-09 |
CN105389099B true CN105389099B (zh) | 2020-06-30 |
Family
ID=54145544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510547352.3A Expired - Fee Related CN105389099B (zh) | 2014-08-29 | 2015-08-31 | 用于语音记录和回放的方法和设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9805724B2 (zh) |
EP (1) | EP2990938A1 (zh) |
KR (1) | KR20160026317A (zh) |
CN (1) | CN105389099B (zh) |
Families Citing this family (100)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10203839B2 (en) * | 2012-12-27 | 2019-02-12 | Avaya Inc. | Three-dimensional generalized space |
KR102262853B1 (ko) | 2014-09-01 | 2021-06-10 | 삼성전자주식회사 | 복수의 마이크를 포함하는 전자 장치 및 이의 운용 방법 |
JP6809467B2 (ja) * | 2015-08-24 | 2021-01-06 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
KR20170044386A (ko) * | 2015-10-15 | 2017-04-25 | 삼성전자주식회사 | 전자기기 및 전자기기의 제어방법 |
JP6374854B2 (ja) * | 2015-11-10 | 2018-08-15 | 株式会社オプティム | 画面共有システム及び画面共有方法 |
USD781907S1 (en) | 2016-01-19 | 2017-03-21 | Apple Inc. | Display screen or portion thereof with graphical user interface |
USD803856S1 (en) * | 2016-02-19 | 2017-11-28 | Samsung Electronics Co., Ltd. | Display screen or portion thereof with graphical user interface |
US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
CN105788599B (zh) * | 2016-04-14 | 2019-08-06 | 北京小米移动软件有限公司 | 语音处理方法、路由器及智能语音控制系统 |
CN106095381B (zh) * | 2016-06-07 | 2020-05-01 | 北京京东尚科信息技术有限公司 | 终端设备及其显示屏幕的滑动操作控制方法和装置 |
US10481863B2 (en) | 2016-07-06 | 2019-11-19 | Baidu Usa Llc | Systems and methods for improved user interface |
USD815110S1 (en) | 2016-07-07 | 2018-04-10 | Baidu Usa Llc | Display screen or portion thereof with graphical user interface |
USD812635S1 (en) * | 2016-07-07 | 2018-03-13 | Baidu Usa Llc. | Display screen or portion thereof with graphical user interface |
USD817337S1 (en) | 2016-07-07 | 2018-05-08 | Baidu Usa Llc | Display screen or portion thereof with graphical user interface |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10152969B2 (en) * | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US11195542B2 (en) | 2019-10-31 | 2021-12-07 | Ron Zass | Detecting repetitions in audio data |
US20180018974A1 (en) * | 2016-07-16 | 2018-01-18 | Ron Zass | System and method for detecting tantrums |
CN106231047A (zh) * | 2016-08-05 | 2016-12-14 | 惠州Tcl移动通信有限公司 | 一种基于智能终端的音频采集方法、系统及智能终端 |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
JP6865015B2 (ja) * | 2016-10-28 | 2021-04-28 | シャープ株式会社 | 情報表示装置 |
KR20180047649A (ko) * | 2016-11-01 | 2018-05-10 | 엘지전자 주식회사 | 이동단말기 및 그 제어방법 |
US20180143800A1 (en) * | 2016-11-22 | 2018-05-24 | Microsoft Technology Licensing, Llc | Controls for dictated text navigation |
JP6859807B2 (ja) * | 2017-03-31 | 2021-04-14 | 日本電気株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
US10825480B2 (en) * | 2017-05-31 | 2020-11-03 | Apple Inc. | Automatic processing of double-system recording |
JP6892598B2 (ja) * | 2017-06-16 | 2021-06-23 | アイコム株式会社 | ノイズ抑圧回路、ノイズ抑圧方法、および、プログラム |
CN107450882B (zh) * | 2017-07-17 | 2020-11-20 | 深圳中泰智丰物联网科技有限公司 | 一种调节声音响度的方法、装置及存储介质 |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
CN107580191A (zh) * | 2017-09-06 | 2018-01-12 | 合肥庆响网络科技有限公司 | 远程会议系统 |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
CN107633854A (zh) * | 2017-09-29 | 2018-01-26 | 联想(北京)有限公司 | 一种语音数据的处理方法和电子设备 |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
CN107890673A (zh) * | 2017-09-30 | 2018-04-10 | 网易(杭州)网络有限公司 | 补偿声音信息的视觉显示方法及装置、存储介质、设备 |
CN108182948B (zh) * | 2017-11-20 | 2021-08-20 | 云知声智能科技股份有限公司 | 可提高语音识别率的语音采集处理方法及装置 |
CN107862071A (zh) * | 2017-11-22 | 2018-03-30 | 三星电子(中国)研发中心 | 生成会议记录的方法和装置 |
KR102469753B1 (ko) * | 2017-11-30 | 2022-11-22 | 삼성전자주식회사 | 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스 |
KR102148245B1 (ko) * | 2017-12-01 | 2020-08-26 | 주식회사 더하일 | 문자 음성변환 시스템 |
USD857041S1 (en) | 2018-01-03 | 2019-08-20 | Apple Inc. | Display screen or portion thereof with graphical user interface |
WO2019142232A1 (ja) * | 2018-01-16 | 2019-07-25 | ハイラブル株式会社 | 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム |
US10817252B2 (en) * | 2018-03-10 | 2020-10-27 | Staton Techiya, Llc | Earphone software and hardware |
WO2019183904A1 (zh) * | 2018-03-29 | 2019-10-03 | 华为技术有限公司 | 自动识别音频中不同人声的方法 |
US11182567B2 (en) * | 2018-03-29 | 2021-11-23 | Panasonic Corporation | Speech translation apparatus, speech translation method, and recording medium storing the speech translation method |
CN108579084A (zh) * | 2018-04-27 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 虚拟环境中的信息显示方法、装置、设备及存储介质 |
CN110415735A (zh) * | 2018-04-28 | 2019-11-05 | 海能达通信股份有限公司 | 一种语音播放方法、装置及客户端 |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
CN110491376B (zh) * | 2018-05-11 | 2022-05-10 | 北京国双科技有限公司 | 一种语音处理方法及装置 |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
CN108854069B (zh) * | 2018-05-29 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 音源确定方法和装置、存储介质及电子装置 |
KR101976986B1 (ko) * | 2018-05-31 | 2019-05-10 | 연세대학교 원주산학협력단 | 소리데이터 자동분할 장치 |
EP3739576B1 (en) * | 2018-06-29 | 2023-10-04 | Google LLC | Audio processing in a low-bandwidth networked system |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
USD869493S1 (en) | 2018-09-04 | 2019-12-10 | Apple Inc. | Electronic device or portion thereof with graphical user interface |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
KR20200081274A (ko) * | 2018-12-27 | 2020-07-07 | 한화테크윈 주식회사 | 음성을 인식하는 장치 및 방법 |
CN109903753B (zh) * | 2018-12-28 | 2022-07-15 | 广州索答信息科技有限公司 | 基于声源角度的多人语句分类方法、设备、介质及系统 |
KR102208954B1 (ko) * | 2019-01-11 | 2021-01-28 | (주)액션파워 | 대화록 서비스를 제공하는 컴퓨팅 장치 |
US11140479B2 (en) * | 2019-02-04 | 2021-10-05 | Biamp Systems, LLC | Integrated loudspeaker and control device |
KR102330345B1 (ko) * | 2019-02-12 | 2021-11-23 | 주식회사 더하일 | Pu 적용 cts 컨바인 시스템 |
CN110459239A (zh) * | 2019-03-19 | 2019-11-15 | 深圳壹秘科技有限公司 | 基于声音数据的角色分析方法、装置和计算机可读存储介质 |
US11100917B2 (en) * | 2019-03-27 | 2021-08-24 | Adobe Inc. | Generating ground truth annotations corresponding to digital image editing dialogues for training state tracking models |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
CN110175260B (zh) * | 2019-05-21 | 2021-07-02 | 深圳壹秘科技有限公司 | 录音角色的区分方法、设备及计算机可读存储介质 |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
CN110600039B (zh) * | 2019-09-27 | 2022-05-20 | 百度在线网络技术(北京)有限公司 | 发言者属性确定方法、装置、电子设备及可读存储介质 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
EP3823315B1 (en) * | 2019-11-18 | 2024-01-10 | Panasonic Intellectual Property Corporation of America | Sound pickup device, sound pickup method, and sound pickup program |
CN111179923B (zh) * | 2019-11-22 | 2022-11-01 | 广东小天才科技有限公司 | 一种基于可穿戴设备的音频播放方法及可穿戴设备 |
US11984713B2 (en) | 2019-12-19 | 2024-05-14 | Biamp Systems, LLC | Support cable and audio cable splice housing |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
CN114003192A (zh) * | 2020-07-27 | 2022-02-01 | 阿里巴巴集团控股有限公司 | 发言人角色信息处理方法及装置 |
CN111883168B (zh) * | 2020-08-04 | 2023-12-22 | 上海明略人工智能(集团)有限公司 | 一种语音处理方法及装置 |
KR102471678B1 (ko) * | 2020-08-26 | 2022-11-29 | 주식회사 카카오엔터프라이즈 | 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치 |
KR20220029866A (ko) * | 2020-09-01 | 2022-03-10 | 삼성전자주식회사 | 전자 장치 및 제어 방법 |
CN112053691B (zh) * | 2020-09-21 | 2023-04-07 | 广州迷听科技有限公司 | 会议辅助方法、装置、电子设备及存储介质 |
CN112309424A (zh) * | 2020-10-28 | 2021-02-02 | 维沃移动通信有限公司 | 显示方法和电子设备 |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
CN112786045B (zh) * | 2021-01-04 | 2024-03-12 | 上海明略人工智能(集团)有限公司 | 用于会议记录的设备、服务器、方法及系统 |
CN113012700B (zh) * | 2021-01-29 | 2023-12-26 | 深圳壹秘科技有限公司 | 语音信号处理方法、装置、系统及计算机可读存储介质 |
CN112908336A (zh) * | 2021-01-29 | 2021-06-04 | 深圳壹秘科技有限公司 | 一种用于语音处理装置的角色分离方法及其语音处理装置 |
KR102504043B1 (ko) * | 2021-03-29 | 2023-02-28 | 한국광기술원 | 잡음환경에 강건한 대화 음성 분리 기능을 갖춘 대면 녹취장치 및 방법 |
CN113115503B (zh) * | 2021-05-17 | 2023-03-31 | 深圳市纬度视听科技有限公司 | 一种舞台音效灯光协同控制系统 |
CN113552949A (zh) * | 2021-07-30 | 2021-10-26 | 北京凯华美亚科技有限公司 | 多功能的沉浸式影音交互方法、装置和系统 |
CN113805835B (zh) * | 2021-08-29 | 2024-02-06 | 北京工业大学 | 一种用于存储和自定义播放声音文件的笔式协同交互系统 |
CN113689873A (zh) * | 2021-09-07 | 2021-11-23 | 联想(北京)有限公司 | 噪声抑制方法、装置及电子设备和存储介质 |
US20230260534A1 (en) * | 2022-02-04 | 2023-08-17 | Meta Platforms Technologies, Llc | Smart glass interface for impaired users or users with disabilities |
JP7464927B2 (ja) | 2022-09-12 | 2024-04-10 | 公立大学法人公立はこだて未来大学 | 通信システム、通信装置、プログラム、及び制御方法 |
KR102511535B1 (ko) * | 2022-12-30 | 2023-03-17 | 주식회사 유비케이솔루션 | 화상 회의 시스템 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1379953A (zh) * | 2000-04-28 | 2002-11-13 | 瑞士电信流动电话公司 | 用于电视会议的方法和系统 |
CN101473652A (zh) * | 2006-04-26 | 2009-07-01 | Opt株式会社 | 摄像机装置和图像记录再生方法 |
CN102200852A (zh) * | 2010-03-23 | 2011-09-28 | 慧智网股份有限公司 | 可携式通话装置操控计算机的方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040114772A1 (en) * | 2002-03-21 | 2004-06-17 | David Zlotnick | Method and system for transmitting and/or receiving audio signals with a desired direction |
JP4839838B2 (ja) * | 2003-12-12 | 2011-12-21 | 日本電気株式会社 | 情報処理システム、情報処理方法および情報処理用プログラム |
FI20055261A0 (fi) * | 2005-05-27 | 2005-05-27 | Midas Studios Avoin Yhtioe | Akustisten muuttajien kokoonpano, järjestelmä ja menetelmä akustisten signaalien vastaanottamista tai toistamista varten |
FI20055260A0 (fi) * | 2005-05-27 | 2005-05-27 | Midas Studios Avoin Yhtioe | Laite, järjestelmä ja menetelmä akustisten signaalien vastaanottamista tai toistamista varten |
US8195213B2 (en) | 2009-06-18 | 2012-06-05 | Qualcomm Incorporated | System and method for permitting recordation of voice transmissions among group members of a communication group of wireless communication devices |
KR101253451B1 (ko) * | 2012-02-29 | 2013-04-11 | 주식회사 팬택 | 음원의 위치를 감지할 수 있는 모바일 디바이스 및 그 제어 방법 |
US8704070B2 (en) * | 2012-03-04 | 2014-04-22 | John Beaty | System and method for mapping and displaying audio source locations |
DE102013215131A1 (de) * | 2013-08-01 | 2015-02-05 | Siemens Medical Instruments Pte. Ltd. | Verfahren zur Verfolgung einer Schallquelle |
US10157272B2 (en) * | 2014-02-04 | 2018-12-18 | Qualcomm Incorporated | Systems and methods for evaluating strength of an audio password |
-
2014
- 2014-08-29 KR KR1020140114566A patent/KR20160026317A/ko not_active IP Right Cessation
-
2015
- 2015-08-27 EP EP15182824.1A patent/EP2990938A1/en not_active Withdrawn
- 2015-08-31 CN CN201510547352.3A patent/CN105389099B/zh not_active Expired - Fee Related
- 2015-08-31 US US14/840,928 patent/US9805724B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1379953A (zh) * | 2000-04-28 | 2002-11-13 | 瑞士电信流动电话公司 | 用于电视会议的方法和系统 |
CN101473652A (zh) * | 2006-04-26 | 2009-07-01 | Opt株式会社 | 摄像机装置和图像记录再生方法 |
CN102200852A (zh) * | 2010-03-23 | 2011-09-28 | 慧智网股份有限公司 | 可携式通话装置操控计算机的方法 |
Also Published As
Publication number | Publication date |
---|---|
US20160064002A1 (en) | 2016-03-03 |
US9805724B2 (en) | 2017-10-31 |
CN105389099A (zh) | 2016-03-09 |
KR20160026317A (ko) | 2016-03-09 |
EP2990938A1 (en) | 2016-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105389099B (zh) | 用于语音记录和回放的方法和设备 | |
EP3567584B1 (en) | Electronic apparatus and method for operating same | |
US10600224B1 (en) | Techniques for animating stickers with sound | |
CN107637025B (zh) | 用于输出消息的电子装置及其控制方法 | |
US11871188B2 (en) | Electronic device including a microphone array | |
CN105930073B (zh) | 用于支持电子设备中的通信的方法和装置 | |
US20190318545A1 (en) | Command displaying method and command displaying device | |
KR102351368B1 (ko) | 전자 장치에서 오디오 출력 방법 및 장치 | |
CN108023934B (zh) | 电子装置及其控制方法 | |
CN108432260B (zh) | 电子设备及其图像控制方法 | |
CN108351890B (zh) | 电子装置及其操作方法 | |
US9912880B2 (en) | Method and apparatus for adjusting color | |
US10198176B2 (en) | Method of managing one or more notifications and electronic device for same | |
KR20180083587A (ko) | 전자 장치 및 그의 동작 방법 | |
WO2015180621A1 (en) | Method and apparatus for playing im message | |
EP3182245A1 (en) | Method and apparatus for providing user interface of electronic device | |
US20170134694A1 (en) | Electronic device for performing motion and control method thereof | |
EP3001300B1 (en) | Method and apparatus for generating preview data | |
EP3575005A1 (en) | Method and apparatus for providing vibration in electronic device | |
CN105993025B (zh) | 用于创建通信组的方法和装置 | |
US20140221047A1 (en) | Method and apparatus for providing short-cut number in user device | |
KR102213429B1 (ko) | 사운드 제공 방법 및 이를 구현하는 전자 장치 | |
US20170024442A1 (en) | Electronic device and method of acquiring user information in electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200630 |