CN110226202B - 用于发送和接收音频数据的方法和设备 - Google Patents
用于发送和接收音频数据的方法和设备 Download PDFInfo
- Publication number
- CN110226202B CN110226202B CN201780084788.0A CN201780084788A CN110226202B CN 110226202 B CN110226202 B CN 110226202B CN 201780084788 A CN201780084788 A CN 201780084788A CN 110226202 B CN110226202 B CN 110226202B
- Authority
- CN
- China
- Prior art keywords
- user
- voice input
- data
- input
- identification information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 110
- 230000002159 abnormal effect Effects 0.000 claims abstract description 105
- 238000004891 communication Methods 0.000 claims description 42
- 230000004044 response Effects 0.000 claims description 10
- 238000007689 inspection Methods 0.000 claims 4
- 238000010801 machine learning Methods 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 abstract description 4
- 210000004556 brain Anatomy 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 235000019504 cigarettes Nutrition 0.000 description 6
- 239000007788 liquid Substances 0.000 description 6
- 239000000126 substance Substances 0.000 description 6
- 239000003571 electronic cigarette Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种人工智能(AI)系统,被配置为通过使用机器学习算法(诸如深度学习等)及其应用来模拟人脑的功能(诸如识别、确定等)。该AI系统包括由设备执行的向另一设备发送音频数据和从另一设备接收音频数据的方法,该方法包括获得由该设备的第一用户输入的语音输入,获得指示获得的语音输入的含义的识别信息,将获得的语音输入发送到另一设备,确定是否发生异常情形,在该异常情形中另一设备的第二用户不理解所发送的语音输入,以及基于确定的结果将获得的识别信息发送到另一设备。
Description
技术领域
本公开涉及一种用于发送和接收音频数据的方法和设备。更具体地,本公开涉及一种用于向另一设备提供指示用户的语音输入的含义的识别信息的方法和设备。
背景技术
人工智能(AI)系统是能够模拟人类智能的计算机系统。不同于先前的基于规则的智能系统,AI系统执行自我学习和确定,从而变得更聪明。AI系统使用得越多,AI系统的识别率就变得越高并且用户的品味就变得更准确。因此,先前的基于规则的智能系统已经逐渐被基于深度学习的AI系统所取代。
AI技术包括机器学习(深度学习)和利用机器学习的元素技术(elementtechnology)。
机器学习是一种对输入数据的特征进行自分类和学习的算法技术。元素技术是一种被配置为通过使用机器学习算法(诸如深度学习等)模拟人脑的功能(诸如识别、确定等)的技术,并且包括语言理解、视觉理解、推理/预测、知识表达、操作控制等。
应用AI技术的各种领域如下。语言理解是一种识别和应用/处理人类语言/字符的技术,并且包括自然语言处理、机器翻译、会话系统、问答、语音识别/合成等。视觉理解是一种像人类视觉一样识别和处理对象的技术,并且包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解、图像改进等。推理/预测是一种确定以及逻辑推断和预测信息的技术,并且包括基于知识/概率的推理、优化预测、基于偏好的规划、推荐等。知识表达是一种执行自动化以将人类的经验信息转换成知识数据的技术,并且包括知识建立(数据生成/分类)、知识管理(数据利用)等。操作控制是一种控制车辆自主驾驶和机器人运动的技术,并且包括运动控制(转向方法、碰撞、驾驶)、操纵控制(行为控制)等。
发明内容
技术问题
随着多媒体技术和网络技术的发展,用户已经能够通过使用设备来接收各种服务。特别地,随着语音识别技术的发展,用户可以向设备提供语音输入,并且设备可以将用户的语音输入转换成文本。
然而,基于该技术,用户可能难以理解其他用户的话语,因为根据现有技术,参与会话系统的用户具有不同的国籍、发音特征和语言使用习惯。并且,即使设备显示指示其他用户的话语的文本,语音识别模型也可能不能正确地将话语转换成指示话语含义的文本。因此,需要一种技术以通过使用针对每个用户个性化的语音识别模型来适当地提供指示用户语音输入的含义的识别信息。
上述信息被呈现为背景信息仅仅是为了帮助理解本公开。对于上述任何一个是否可以适合作为本公开的现有技术,没有做出确定,也没有做出断言。
技术方案
本公开各方面至少解决上述问题和/或缺点,并且至少提供下面描述的优点。因此,本公开一方面提供一种方法和设备,用于通过使用个性化人工智能(AI)语音识别模型来准确地确定是否发生另一用户不理解用户的语音输入的情形,从而在不增加网络开销的情况下发送指示用户的语音输入的含义的识别信息。
附图说明
从以下结合附图的描述中,本公开某些实施例的上述和其他方面、特征和优点将变得更加清楚,在附图中:
图1是根据本公开的实施例的设备提供关于从另一设备接收语音的通知消息的示例的视图;
图2是根据本公开实施例的由设备执行的向另一设备发送识别信息的方法的流程图;
图3是根据本公开实施例的在设备和另一设备之间发送和接收数据的方法的流程图;
图4是根据本公开的实施例的其中确定异常情形发生的示例的视图;
图5是根据本公开的实施例的其中确定异常情形发生的示例的视图;
图6是根据本公开实施例的其中设备生成笔记的示例的视图;
图7是根据本公开的实施例的每个用户的笔记的视图;
图8和图9是根据本公开实施例的设备的框图;
图10是根据本公开实施例的控制器的框图;
图11是根据本公开实施例的数据学习器的框图;
图12是根据本公开实施例的数据识别器的框图;和
图13是根据本公开的实施例的其中设备和服务器被同步以学习和识别数据的示例的视图。
贯穿附图,相似的附图标记将被理解为指代相似的部件、组件和结构。
具体实施方式
本公开一方面提供一种方法和设备,用于通过使用个性化人工智能(AI)语音识别模型来准确地确定是否发生另一用户不理解用户的语音输入的情形,从而在不增加网络开销的情况下发送指示该用户的语音输入的含义的识别信息。
本公开各方面是至少解决上述问题和/或缺点,并且至少提供下述优点。因此,本公开一方面提供一种方法和设备,用于通过使用个性化人工智能(AI)语音识别模型来准确地确定是否发生另一用户不理解用户的语音输入的情形,从而在不增加网络开销的情况下发送指示该用户的语音输入的含义的识别信息。
附加方面将在下面的描述中部分地阐述,并且部分地将从描述中变得清楚,或者可以通过所呈现的实施例的实践来了解。
根据本公开一方面,提供了一种设备。该设备包括:用户输入接口,被配置为获得由该设备的第一用户输入的语音输入;通信接口,被配置为向另一设备发送获得的语音输入;和控制器,被配置为获得指示获得的语音输入的含义的识别信息,并确定是否发生另一设备的第二用户不理解所发送的语音输入的异常情形,其中通信接口被进一步配置为基于确定的结果向另一设备发送获得的识别信息。
根据本公开另一方面,提供了一种方法。由设备执行的向另一设备发送音频数据和从另一设备接收音频数据的方法包括:获得由该设备的第一用户输入的语音输入;获得指示获得的语音输入的含义的识别信息;向另一设备发送获得的语音输入;确定是否发生另一设备的第二用户不理解所发送的语音输入的异常情形;以及基于确定的结果向另一设备发送获得的识别信息。
根据另一实施例一方面,一种非暂时性计算机可读记录介质上包含用于执行由该设备执行的向另一设备发送音频数据和从另一设备接收音频数据的方法的程序。
从以下结合附图公开了本公开各种实施例的详细描述中,本公开的其他方面、优点和显著特征对于本领域技术人员将变得清楚。
下列参考附图的描述被提供以帮助全面理解由权利要求及其等同限定的本公开各种实施例。它包括有助于理解的各种特定细节,但这些仅仅视为示例性的。因此,本领域普通技术人员将认识到,在不脱离本公开范围和精神的情况下,可以对本文描述的各种实施例进行各种改变和修改。另外,为了清楚和简明起见,可以省略对公知功能和构造的描述。
在以下描述和权利要求中使用的术语和词语不限于文献意义,而是仅由发明人使用以使得能够清楚和一致地理解本公开。因此,对于本领域技术人员来说清楚的是,提供对本公开各种实施例的以下描述仅仅是为了说明的目的,而不是为了限制由所附权利要求及其等同限定的本公开。
应当理解,单数形式“一”、“一个”和“该”包括复数指代,除非上下文另有明确指示。因此,例如,对“一个组件表面”的引用包括对一个或多个这样的表面的引用。
贯穿说明书,应当理解,当一个元件被称为“连接”到另一元件时,它可以“直接连接”到另一元件,或者“电连接”到另一元件,其间具有插入元件。还应当理解,当部件“包括”或“包含”元件时,该部件可以进一步包括其他元件,不排除其他元件,除非另有定义。
应当理解,尽管术语第一、第二等可以在本文用来描述各种元素,但是这些元素不应该被这些术语所限制。这些术语仅用于区分一元素和另一元素。
在本说明书中,用户输入可以包括例如触摸输入、弯曲输入、语音输入、按键输入和多模型输入中的至少一个。然而,用户输入不限于此。在下文中,将参考附图详细描述本公开。
图1是根据本公开的实施例的其中设备提供关于从另一设备接收语音的通知消息的示例的视图。
参考图1,设备1000可以获得由第一用户120输入的至少一个语音输入,并且另一设备2000可以获得由第二用户140输入的至少一个语音输入。设备1000可以将获得的第一用户120的至少一个语音输入发送到另一设备2000,并且另一设备2000可以将获得的第二用户140的至少一个语音输入发送到设备1000。例如,设备1000可以从另一设备2000接收第二用户140的语音输入“I told you not to do that”。
根据实施例,当设备1000从另一设备2000接收到对远程会议的请求时,设备1000可以向另一设备2000发送语音输入和从另一设备2000接收语音输入。例如,设备1000可以运行与另一设备2000远程会议的应用,并且可以经由所运行的应用向另一设备2000发送数据和从另一设备2000接收数据。在本说明书中,应用是指被设计用来执行特定操作的计算机程序的集合。例如,设备1000可以运行电话应用或信使应用。并且,设备1000可以经由所运行的应用向另一设备2000发送音频数据和文本数据以及从另一设备2000接收音频数据和文本数据,使得第一用户120可以与第二用户140交谈。
根据实施例,设备1000可以确定是否发生其中第一用户120不理解从另一设备2000接收到的第二用户140的语音输入的异常情形,并且可以从另一设备2000接收指示第二用户140的语音输入的含义的识别信息。
异常情形可包括另一用户的语音输入的含义不被理解的情况、另一用户的语音输入的含义被错误理解的情况、另一用户的语音输入未被听到的情况等。
例如,第一用户120可能没有听到第二用户140的语音输入“I told you not todo that”,并且可能说出“什么?”,例如,设备1000可以针对接收到的第二用户140的语音输入获得第一用户120的语音输入“什么?”。并且,例如,设备1000可以分析语音输入“什么?”的含义并且可以确定第一用户120不理解第二用户140的语音输入。例如,设备1000可以通过使用从语音到文本(speech to text,STT)、自动语音识别(ASR)、口语理解(spokenlanguage understanding,SLU)和自然语言理解(NLU)当中的至少一种语音识别技术来分析用户的语音输入的含义。然而,本公开不限于此。
例如,当设备1000确定第一用户120不理解第二用户140的语音输入时,设备1000可以请求另一设备2000发送指示第二用户140的语音输入的含义的识别信息。例如,响应于设备1000的请求,另一设备2000可以向设备1000发送由另一设备2000获得的识别信息“Itold you not to do that”。
识别信息可以是指示至少一个语音输入的含义的信息,其中该信息是通过使用从STT、ASR、SLU和NLU中的至少一种技术从用户的至少一个语音输入生成的。例如,识别信息可包括指示用户的语音输入的含义的文本,该文本通过使用被配置为解释用户的语音输入的人工智能(AI)语音识别模型来生成。
根据实施例,为了生成识别信息,可以使用对于每个用户不同的个性化AI语音识别模型。例如,设备1000可以使用第一用户120的第一AI语音识别模型来解释第一用户120的语音输入,并且另一设备2000可以使用第二用户140的第二AI语音识别模型来解释第二用户140的语音输入。例如,第一AI语音识别模型可以在设备1000中生成,并在设备1000中注册。可替换地,例如,第一AI语音识别模型可以在第一用户120的另一设备(未示出)中生成,并提供给设备1000。可替换地,例如,第一AI语音识别模型可以在服务器(未示出)中生成,并由设备1000学习。
根据实施例,设备1000可以基于从另一设备2000接收到的识别信息来提供通知第一用户120不理解的部分的通知消息。例如,设备1000可以基于从另一设备2000接收到的识别信息“I told you not to do that”,向第一用户120提供通知消息“第二用户打算说“Itold you not to do that””。
通知消息可以是基于识别信息生成的数字信息,并且被提供给用户以通知用户不理解的另一用户的语音输入。在本说明书中,通知消息可以以某种格式(诸如文本、图像、音频或视频),或者以组合其中至少两种的格式提供给用户。然而,通知消息不限于此。
设备1000可以包括智能手机、平板个人计算机(PC)、PC、智能电视(TV)、蜂窝电话、个人数字助理(PDA)、膝上型计算机、媒体播放器、微服务器、全球定位系统(GPS)设备、电子书终端、数字广播终端、导航设备、信息亭、运动图像专家组第一阶段或第二阶段(MPEG-1或MPEG-2)音频层3(MP3)播放器、数码相机、家用电器和其他移动或非移动计算设备,但不限于此。并且,设备1000可以包括具有通信功能和数据处理功能的可穿戴设备,诸如手表、眼镜、发带、戒指等。然而,设备1000不限于此,并且可以包括被配置为向另一设备2000发送语音数据和文本数据以及从另一设备2000接收语音数据和文本数据的所有类型的设备。
并且,设备1000可经由预定网络与服务器(未示出)和另一设备2000通信,以发送和接收语音数据和文本数据。在这种情况下,预定网络可包括局域网(LAN)、广域网(WAN)、增值网(VAN)、移动无线电通信网、卫星通信网及其组合。网络可以是被配置为使得网络中包括的组件能够彼此平滑通信的综合数据通信网络,并且可包括有线互联网、无线互联网和移动无线通信网络。无线通信可包括例如无线LAN(Wi-Fi)、蓝牙、蓝牙低功耗、Zigbee、Wi-Fi直连(WFD)、超宽带(UWB)、红外数据协会(IrDA)、近场通信(NFC)等,但不限于此。
远程会议可能存在问题,诸如由于网络延迟导致的语音传输延迟、语音质量下降等。然而,根据本公开,会议内容作为文本被管理和交换,并且因此,可以减少数据负载。
图2是根据本公开实施例的由设备执行的向另一设备发送识别信息的方法的流程图。
参考图2,在操作S210中,设备1000可以获得由设备1000的第一用户输入的语音输入。
根据实施例,第一用户可以运行语音识别应用并生成语音以在设备1000中输入语音。例如,第一用户可以经由设备1000的麦克风输入语音。
可替换地,设备1000可以总是处于被配置为接收用户的语音输入的状态。例如,设备1000可以接收用户在运行远程会议的应用(例如,电话应用、信使应用等)时生成的语音输入。
在操作S220中,设备1000可以获得指示由第一用户输入的语音输入的含义的识别信息。
识别信息可以是指示用户的至少一个语音输入的含义的信息,其中该信息是通过使用从STT、ASR、SLU和NLU中的至少一种技术从用户的至少一个语音输入生成的。例如,识别信息可包括指示用户的语音输入的含义的文本,该文本通过使用被配置为解释用户的语音输入的AI语音识别模型来生成。
根据实施例,设备1000可以获得第一AI语音识别模型来解释第一用户的语音输入,并且可以使用第一AI语音识别模型来生成指示第一语音输入的含义的文本。例如,可以通过使用第一用户的语音数据来学习第一AI语音识别模型,并且第一用户的语调和/或第一用户的发音特征可以反映在第一AI语音识别模型中。
在操作S230中,设备1000可以向另一设备2000发送由第一用户输入的语音输入。
根据实施例,设备1000可以将第一用户的语音输入直接发送到另一设备2000。可替换地,根据实施例,设备1000可以通过服务器将第一用户的语音输入发送到另一设备2000。并且,设备1000可以经由预定网络与服务器和/或另一设备2000通信,以便向另一设备2000发送语音数据。
在操作S240中,设备1000可以确定是否发生另一设备2000的第二用户不理解所发送的语音输入的异常情形。
根据实施例,设备1000可以从另一设备2000接收第二用户的语音输入。例如,对应于将第一用户的语音输入发送到另一设备2000,设备1000可以从另一设备2000接收第二用户的语音输入。
根据实施例,设备1000可以通过分析从另一设备2000接收到的第二用户的至少一个语音输入来确定是否发生异常情形。例如,设备1000可以将接收到的第二用户的至少一个语音输入转换成文本,并且基于转换的文本中是否包括预定短语,可以确定是否发生异常情形。例如,预定短语可以指示第二用户不理解第一用户的语音输入,并且可以被预先存储在设备1000中。例如,预定短语可以包括“什么?”、“你能再说一遍吗?”、“我不明白你在说什么”、“什么?我没明白”等,但不限于此。
根据实施例,设备1000可以通过从另一设备2000接收发送识别信息的请求来确定异常情形发生。例如,当另一设备2000确定另一设备2000的第二用户不理解第一用户的语音输入时,另一设备2000可以请求设备1000发送指示第一用户的语音输入的含义的识别信息。例如,基于另一设备2000的请求,设备1000可以确定异常情形发生。
根据实施例,设备1000可以从另一设备2000接收指示由第二用户输入到另一设备2000的、第二用户的语音输入的含义的识别信息。例如,当运行远程会议的应用时,设备1000可以间歇地从另一设备2000接收指示第二用户的语音输入的含义的识别信息,而无需额外的请求。并且,根据实施例的设备1000可基于指示第一用户的语音输入的含义的识别信息和指示第二用户的语音输入的含义的识别信息来分析第一用户和第二用户之间的会话内容。并且,根据实施例的设备1000可基于所分析的会话内容来确定是否发生异常情形。
将参考图4和图5详细描述确定是否发生异常情形的示例。
在操作S250中,设备1000可以基于确定的结果将获得的识别信息发送到另一设备2000。
根据实施例,设备1000可以将识别信息直接发送到另一设备2000。可替换地,根据实施例,设备1000可以经由服务器将识别信息发送到另一设备2000。并且,设备1000可以经由预定网络与服务器和/或另一设备2000通信,以便向另一设备2000发送文本数据。
图3是根据本公开实施例的在设备和另一设备2000之间发送和接收数据的方法的流程图。
参考图3,在操作S230中,设备1000可以运行远程会议的应用。
根据实施例,设备1000可通过接收第一用户的用于运行远程会议的应用的用户输入来运行远程会议的应用。根据实施例,在运行应用之后,设备1000可以基于第一用户的用户输入向另一设备2000发送参与远程会议的请求。
在操作S332中,另一设备2000可以运行远程会议的应用。
根据实施例,另一设备2000可以通过接收第二用户的用于运行远程会议的应用的用户输入来运行远程会议的应用。
根据实施例,响应于从设备1000接收到的参与会议的请求,另一设备2000可以参与包括第一用户的会议。例如,另一设备2000可以基于第二用户的用于响应会议参与请求的用户输入来运行远程会议的应用。
在操作S334中,设备1000可以在远程参考的应用中注册第一用户的第一AI语音识别模型。
根据实施例,设备1000可以在该应用中注册第一AI语音识别模型,以便经由第一AI语音识别模型将由第一用户生成的语音输入转换成文本。例如,第一AI语音识别模型可以通过使用第一用户的语音数据来学习,并且可以反映第一用户的语调和/或第一用户的发音特征。
根据实施例,第一AI语音识别模型可以是被配置为通过使用机器学习的统计结果来解释第一用户的语音输入的算法集合。例如,第一AI语音识别模型可将第一用户的语音输入作为输入,并且可将指示第一用户的语音输入的含义的文本作为输出。例如,第一AI语音识别模型可以在设备1000中生成,并在设备1000中注册。可替换地,例如,第一AI语音识别模型可以在第一用户的另一设备(未示出)中生成,并提供给设备1000。可替换地,例如,第一AI语音识别模型可以在服务器(未示出)中生成,并在设备1000中学习。
在操作S336中,另一设备2000可以在远程会议的应用中注册第二用户的第二AI语音识别模型。
根据实施例,另一设备2000可以在应用中注册第二AI语音识别模型,以便经由第二AI语音识别模型将由第二用户生成的语音输入转换成文本。例如,第二AI语音识别模型可以通过使用第二用户的语音数据来学习,并且可以反映第二用户的语调和/或发音特征。
根据实施例,第二AI语音识别模型可以是被配置为通过使用机器学习的统计结果来解释第二用户的语音输入的算法集合。例如,第二AI语音识别模型可以将第二用户的语音输入作为输入,并且可以将指示第二用户的语音输入的含义的文本作为输出。例如,第二AI语音识别模型可以在另一设备2000中生成,并在另一设备2000中注册。可替换地,例如,第二AI语音识别模型可以在第二用户的另一设备(未示出)中生成,并提供给另一设备2000。可替换地,例如,第二AI语音识别模型可以在服务器(未示出)中生成,并在另一设备2000中学习。
在操作S338中,设备1000可以获得第一用户的语音输入。
操作S338对应于图2的操作S210,并且因此将省略其描述。
在操作S340中,设备1000可以将获得的第一用户的语音输入发送到另一设备2000。
操作S340对应于图2的操作S230,并且因此将省略其描述。
在操作S342中,另一设备2000可以输出接收到的第一用户的语音输入。
根据实施例,为了向第二用户发送第一用户的语音输入,另一设备2000可以输出从设备1000接收到的第一用户的语音输入作为音频信号。
在操作S344中,设备1000可以通过使用第一AI语音识别模型将获得的第一用户的语音输入转换成文本。
根据实施例,设备1000可通过使用第一AI语音识别模型来生成指示第一用户的语音输入的含义的文本以便解释第一用户的语音输入。根据实施例,当第一用户的语音输入被输入到第一AI语音识别模型时,第一用户的语音输入可被转换成文本,而该语音输入不经由第二AI语音识别模型转换成文本。
在操作S346中,设备1000可以记录转换后的文本并生成会话日志。
根据实施例,设备1000可以从第一用户开始参与会话的时间点开始实时地将第一用户的语音输入转换成文本,并且可以在适当的时候记录该文本。根据实施例,设备1000通过记录信息生成的会话日志可以包括设备1000在会话期间可以获得的各种信息。例如,第一用户的会话日志可以包括参与会话的用户的姓名、第一用户生成语音的时间、迄今为止基于第一用户的语音输入生成的文本等。
在操作S348中,另一设备2000可以确定是否发生第二用户不理解第一用户的语音输入的异常情形。
根据实施例,另一设备2000可以通过分析第二用户的至少一个语音输入来确定是否发生异常情形。例如,另一设备2000可以基于在经由第二AI语音识别模型转换的文本中是否包括预定短语来确定是否发生异常情形。例如,预定短语包括第二用户不理解第一用户的语音输入的内容,并且可以预先存储在另一设备2000中。例如,预定短语可以包括“什么?”、“你能再说一遍吗?”、“我不明白你在说什么”、“什么?我没明白”等,但不限于此。
作为另一示例,另一设备2000可以分析通过使用第二AI语音识别模型转换的文本,并且当第二用户重复生成相似的单词或短语时,可以识别第二用户是否识别出第一用户的语音输入的含义。另一设备2000可以确定第二用户不理解第一用户的语音输入的含义的异常情形发生,即使第二用户没有明确表示第二用户不理解第一用户的语音输入的含义。
在操作S350中,当另一设备2000确定异常情形发生时,另一设备2000可以向设备1000请求指示接收到的第一用户的语音输入的含义的文本。
根据实施例,当会议开始时,另一设备2000可以向设备1000请求与在从设备1000接收到的第一用户的语音输入当中的、在包括异常情形发生的时间点的时间段的预定范围内生成的第一用户的语音输入相对应的文本。
在操作S352中,设备1000可以确定第二用户不理解第一用户的语音输入的异常情形发生。
根据实施例,设备1000可以通过从另一设备2000接收发送文本的请求来确定第二用户不理解第一用户的语音输入的异常情形发生。然而,由设备1000执行的确定异常情形发生的方法不限于此。
在操作S354中,响应于另一设备2000发送文本的请求,设备1000可以提取会话日志中发生异常情形的部分。
根据实施例,设备1000可以从会话日志中提取与在包括确定异常情形发生的时间点的时间段的预定范围内生成的第一用户的语音输入相对应的文本,作为发生异常情形的部分。例如,确定异常情形发生的时间点可以在设备1000和另一设备2000之间不同,并且可以基于设备1000或另一设备2000,其可以在远程参考的应用中预先设置。例如,当基于确定异常情形发生的时间点设置预定范围时,其中该时间点由另一设备2000确定,设备1000可以从另一设备2000接收确定异常情形发生的时间点的信息以及发送文本的请求。
在操作S356中,设备1000可以向另一设备2000发送指示第一用户的语音输入的含义的文本。
根据实施例,设备1000可以基于从另一设备2000发送文本的请求,向另一设备2000发送会话日志中发生异常情形的部分。
在操作S358中,另一设备2000可以基于接收到的文本输出通知消息。
根据实施例,另一设备2000可以基于从设备1000接收到的文本输出通知第二用户不理解的部分的通知消息。例如,另一设备2000可以基于从设备1000接收到的文本“AAA”,输出通知消息“第一用户说“AAA””。例如,通知消息可以以语音或文本的格式输出,但不限于此。
在操作S360中,另一设备2000可以生成反映接收到的文本的会话日志。
根据实施例,另一设备2000可以生成会话日志,该会话日志不仅包括第二用户的语音输入的内容,还包括与异常情形、异常情形发生的时间点以及从设备1000接收到的文本相关的内容。
操作S330至S360的顺序可以改变,或者可以省略一个或多个操作。然而,本公开不限于此。并且,在设备1000中执行的操作可以在另一设备2000中执行,并且在设备2000中执行的操作可以在设备1000中执行。
参考图3描述了第一用户和第二用户通过运行远程会议的应用来彼此交谈。然而,本公开不限于此。在用于用户和电话应用之间的语音会话的各种应用中,可以发送和接收音频数据,并且当异常情形发生时,可以发送和接收文本数据,并且在会话日志中输出和反映通知消息。
图4是根据本公开的实施例的确定异常情形发生的示例的视图。
参考图4,在会话期间,设备1000可以通过分析从另一设备2000接收到的第二用户420的至少一个语音输入来确定第二用户420不理解第一用户410的语音输入的异常情形发生。
根据实施例,设备1000可以将接收到的第二用户420的至少一个语音输入转换成文本,并且基于转换的文本中是否包括预定短语,可以确定是否发生异常情形。例如,作为对由第一用户410生成的语音输入的响应,“我认为减少电子烟的有害物质的方法包括使用液体香烟”,设备1000可以接收第二用户420的语音输入“什么?我没明白”。例如,设备1000可以通过使用第一AI语音识别模型将接收到的第二用户420的用户输入转换成文本,并且可以识别出该文本包括预定短语“我没明白”。例如,当在文本中包括预定短语时,设备1000可以确定异常情形发生。
根据另一实施例,设备1000可通过接收指示输入到另一设备2000的第二用户420的语音输入的含义的识别信息来确定第二用户420不理解第一用户410的语音输入的异常情形发生。例如,当运行远程会议的应用时,设备1000可间歇地从另一设备2000接收指示第二用户420的语音输入的含义的识别信息,而无需额外的请求。并且,例如,设备1000可基于在接收到的识别信息中是否包括预定短语来确定是否发生异常情形。例如,当设备1000接收到指示第二用户420的语音输入“什么?我没明白”的含义的识别信息时,设备1000可识别出在文本中包括预定短语“我没明白”并且可确定异常情形发生。
根据实施例,当确定异常情形发生时,设备1000可以在设备1000的屏幕上显示检查消息430。
检查消息430可以表示提供给用户用以检查识别信息是否指示用户语音输入的含义的数字信息。在本说明书中,检查消息430可以以特定格式(诸如文本、图像、音频和视频),或者以组合其中至少两种的格式提供给用户。然而,检查消息430不限于此。
例如,关于由第一用户410生成的语音输入“我认为减少电子烟的有害物质的方法是通过使用液体香烟”,可以输出检查消息430来检查通过使用第一AI语音识别模型获得的识别信息“我认为减少电子烟的有害物质的方法是通过使用液体香烟”是否正确地指示了第一用户410的语音输入的含义。
根据实施例,设备1000可以基于获得的识别信息生成检查消息430。例如,检查消息430可以包括短语“你说的是这个吗?”、获得的识别信息和执行特定操作的对象。
并且,根据实施例,设备1000可以基于响应于显示的检查消息430而生成的用以校正识别信息的第一用户410的输入来校正识别信息。例如,设备1000可以接收选择用于校正识别信息的“是”图标440的用户输入,并且可以激活检查消息430的编辑功能。并且,设备1000可以接收将识别信息校正为“我认为减少电子烟的有害物质的方法是通过使用液体香 烟”的用户输入。并且,根据实施例,设备100可以向另一设备2000发送校正后的识别信息。
可替换地,根据实施例,设备1000可以接收用于不校正响应于显示的检查消息430而生成的识别信息的第一用户410的输入。例如,设备1000可以接收选择用于不校正识别信息的“否”图标450的用户输入,并且可以向另一设备2000发送未校正的识别信息。
并且,根据实施例,另一设备2000可以基于校正后的识别信息输出通知消息460。例如,另一设备2000可以基于从设备1000接收到的校正后的识别信息“我认为减少电子烟有害物质的方法是通过使用液体香烟”,向第二用户420提供通知消息“第一用户说:“我认为减少电子烟有害物质的方法是通过使用液体香烟””。
图5是根据本公开的实施例的确定发生异常情形的示例的视图。
参考图5,设备1000可以从第一另一设备2000-1和第二另一设备2000-2接收指示第二用户520的语音输入的含义的识别信息和指示第三用户530的语音输入的含义的识别信息。例如,当运行远程会议的应用时,设备1000可以间歇地从第一另一设备2000-1和第二另一设备2000-2接收指示第二用户520的语音输入的含义的识别信息和指示第三用户530的语音输入的含义的识别信息,而无需附加请求。
并且,根据实施例的设备1000可以基于指示第一用户510的语音输入的含义的识别信息、指示第二用户520的语音输入的含义的识别信息和指示第三用户530的语音输入的含义的识别信息,分析第一用户510、第二用户520和第三用户530之间的会话内容。例如,设备1000可以分析会话的内容以确定会话主题,并且可确定在第一用户510、第二用户520和第三用户530谈论主题A的同时只有第二用户520和第三用户530将会话主题改变为主题B。
并且,根据实施例的设备1000可基于所分析的会话内容来确定异常情形发生。例如,设备1000可通过确定第一用户510在等于或大于预定时间段的时间段内谈论与其他用户520和530的主题不同的主题来确定异常情形发生。
根据实施例,设备1000可以提供通知消息540,该通知消息540被配置为基于所分析的会话内容向第一用户510通知当前会话。例如,设备1000可以向第一用户510提供通知消息540“会话当前是关于主题B的。主题B如下[……]”。例如,设备1000可以以文本或声音的格式输出通知消息540。
根据实施例,设备1000可以基于学习来改变预定时间段。例如,当在先前的会议中有许多次第一用户510谈论不同的主题时,设备1000可以减少确定第一用户510的语音输入是否偏离会话主题所基于的时间段。
根据实施例,第一另一设备2000-1和第二另一设备2000-2可以包括在上述和下面将要描述的另一设备2000中。
图6是根据本公开实施例的设备生成笔记的示例的视图。
参考图6,在操作S610中,设备1000可以在设备1000中存储第一用户的会话日志。
根据实施例,当远程会议完成时,设备1000可基于经由第一用户的至少一个语音输入获得的至少一条识别信息,将第一用户的会话日志存储在存储器中。例如,第一用户的会话日志可包括经由第一AI语音识别模型从会议期间生成的第一用户的所有语音输入转换的文本,以及生成第一用户的语音输入的时间信息。根据实施例,当第一用户离开会议时,即使会议没有完成,设备1000也可基于获得的至少一条识别信息将第一用户的会话日志存储在存储器中。
在操作S620,设备1000可以从另一设备2000接收第二用户的会话日志。
根据实施例,当远程会议完成时,另一设备2000可以基于经由第二用户的至少一个语音输入获得的至少一条识别信息来生成第二用户的会话日志。并且,根据实施例,设备1000可以从另一设备2000接收生成的第二用户的会话日志。例如,第二用户的会话日志可以包括经由第二AI语音识别模型从会议期间生成的第二用户的所有语音输入转换的文本,以及生成第二用户的语音输入的时间信息。
在操作S630中,设备1000可以基于第一用户的会话日志和第二用户的会话日志来重构会话内容。
根据实施例,设备1000可以基于生成第一用户的语音输入的时间和生成第二用户的语音输入的时间,将第一用户的会话日志和第二用户的会话日志重构为第一用户和第二用户彼此交谈的形式。
在操作S640中,设备1000可通过分析重构的会话内容来确定会话主题。
根据实施例,设备1000可以从重构的会话内容中总结第一用户和第二用户共同谈论的部分,并且可以提取会话主题。
在操作S650中,设备1000可以从重构的会话内容中提取发生第一用户不理解从另一设备2000接收到的第二用户的语音输入的异常情形的部分。
根据实施例,设备1000可经由确定发生第一用户不理解第二用户的语音输入的异常情形的时间记录,从重构的会话内容中提取发生异常情形的部分。
在操作S660中,设备1000可以生成第一用户的笔记,该笔记包括重构的会话内容、会话主题和发生异常情形的部分中的至少一个。
将参考图7详细描述这些笔记。
图7是根据本公开的实施例的每个用户的笔记的视图。
参考图7,基于第一用户的输入,根据实施例的设备1000可显示在设备1000中生成的第一用户的笔记710。类似地,基于第二用户的输入,根据实施例的另一设备2000可显示在另一设备2000中生成的第二用户的笔记720。
根据实施例,第一用户的笔记710和第二用户的笔记720可以公共包括重构的会话内容和会话主题。并且,根据实施例,第一用户的笔记710可以进一步包括发生第一用户不理解第二用户的语音输入的异常情形的部分,并且第二用户的笔记720可以进一步包括发生第二用户不理解第一用户的语音输入的异常情形的部分。例如,在会议完成之后,第一用户的笔记710旨在用作关于会议的参考,并且可以仅包括在用户之间交换的会话内容当中的第一用户不理解的部分、第一用户错误理解的部分或者第一用户没有听到的部分。
图8和图9是根据本公开实施例的设备的框图。
参考图8,根据实施例的设备1000可以包括用户输入接口1100、控制器1300和通信接口1500。然而,并不是图8所示的所有组件都是必要组件。设备1000可以通过包括多于或少于图8所示的组件来实现。
例如,参考图9,除了用户输入接口1100、控制器1300和通信接口1500之外,根据实施例的设备1000可以进一步包括输出接口1200、传感器1400、音频/视频(A/V)输入接口1600和存储器1700。
用户输入接口1100是指用户经由其输入用于控制设备1000的数据的设备。例如,用户输入接口1100可以包括键盘、圆顶开关、触摸板(使用触摸电容法、压阻法、红外感测法、表面超声波传导法、整体张力测量法、压电效应法等)、滚轮、微动开关等,但不限于此。
用户输入接口1100可以获得由用户输入的语音输入。
输出接口1200可以输出音频信号、视频信号或振动信号,并且可以包括显示器1210、声音输出接口1220和振动马达1230。
显示器1210可以显示和输出在设备1000中处理的信息。例如,当发生异常情形时,显示器1210可以显示用于检查识别信息是否指示语音输入的含义的检查消息。并且,例如,显示器1210可以显示基于识别信息生成的通知消息,以便通知用户不理解的另一用户的语音输入。
声音输出接口1220可输出从通信接口1500接收到的或者存储在存储器1700中的音频数据。并且,声音输出接口1220可输出与设备1000中执行的功能相关的声音信号(例如,呼叫信号接收声音、消息接收声音、通知声音)。例如,声音输出接口1220可输出从另一设备2000接收到的另一用户的语音信号。
控制器1300通常可以控制设备1000的一般操作。例如,控制器1300通常可以通过运行存储在存储器1700中的程序来控制用户输入接口1100、输出接口1200、传感器1400、通信接口1500、A/V输入接口1600等。并且,控制器1300可以通过运行存储在存储器1700中的程序来执行图1、图2、图3、图4、图5、图6和图7所示的设备1000的功能。控制器1300可以包括至少一个处理器。基于其功能和操作,控制器1300可以包括多个处理器或集成的一个处理器。
根据实施例,控制器1300可获得指示经由用户输入接口1100获得的用户的语音输入的含义的识别信息并且可确定是否发生另一设备2000的另一用户不理解用户的语音输入的异常情形。根据实施例,控制器1300可以获得AI语音识别模型来解释用户的语音输入并且可使用AI语音识别模型来生成指示用户的语音输入的含义的文本。且根据实施例,控制器1300可基于响应于显示的检查消息而生成的用以校正识别信息的用户输入来校正识别信息。
根据实施例,控制器1300可以通过分析从另一设备2000接收到的另一用户的至少一个语音输入来确定是否发生异常情形。并且,根据实施例,控制器1300可以将另一用户的至少一个语音输入转换成文本,并且可以基于转换的文本是否包括预定短语来确定是否发生异常情形。并且,根据实施例,控制器1300可以通过从另一设备200接收对指示用户语音输入的含义的识别信息的请求来确定是否发生异常情形。并且,根据实施例,控制器1300可以基于指示用户的语音输入的含义的识别信息和指示另一用户的语音输入的含义的识别信息来分析该用户和另一用户之间的会话的内容,并且可以基于所分析的会话内容来确定是否发生异常情形。
根据实施例,基于确定的结果,控制器1300可以控制通信接口1500向另一设备2000发送获得的识别信息。例如,当控制器1300确定发生异常情形时,控制器1300可以控制通信接口1600向另一设备2000发送获得的识别信息。并且,当控制器1300确定确实发生异常情形时,控制器1300可以控制通信接口1500不立即向另一设备2000发送识别信息。
根据实施例,控制器1300可以基于由用户校正的识别信息来学习用于将用户的语音输入转换成文本的参考。
根据实施例,控制器1300可以基于存储在存储器1700中的用户的会话日志和经由通信接口1500从另一设备2000接收到的另一用户的会话日志来重构会话内容。并且,根据实施例,控制器1300可以通过分析重构的会话内容来确定会话主题。并且,根据实施例,控制器1300可以从重构的会话内容中提取发生其中用户不理解从另一设备2000接收到的另一用户的语音输入的异常情形的部分。并且,根据实施例,控制器1300可以生成包括重构的会话内容、会话主题和发生异常情形的部分中的至少一个的笔记。
传感器1400可以感测设备1000的状态、用户的状态或设备1000周围的状态,并且可以向控制器1300发送感测到的信息。
传感器1400可以包括磁传感器1410、加速度传感器1420、温度/湿度传感器1430、红外传感器1440、陀螺仪传感器1450、位置传感器(例如,GPS))1460、大气压传感器1470、接近传感器1480和红、绿、蓝(RGB)传感器1490中的至少一种,但不限于此。本领域普通技术人员可以从每个传感器的名称中直观地推断出其功能,并且因此将省略其详细描述。
通信接口1500可以包括被配置为使设备1000能够与另一设备2000和服务器通信的至少一个组件。另一设备2000可以是计算设备,如设备1000,但不限于此。例如,通信接口1500可以包括短程无线通信接口1510、移动通信接口1520和广播接收接口1530。
短程无线通信接口1510可以包括蓝牙通信接口、蓝牙低能量通信接口、NFC接口、WLAN(Wi-Fi)通信接口、Zigbee通信接口、IrDA通信接口、WFD通信接口、UWB通信接口、Ant+通信接口等,但不限于此。
移动通信接口1520可以向移动通信网络中的基站、外部终端和服务器中的至少一个发送无线信号以及从移动通信网络中的基站、外部终端和服务器中的至少一个接收无线信号。无线信号可以包括语音呼叫信号、视频电话呼叫信号或基于文本/多媒体消息交换的各种类型的数据。
广播接收接口1530可以经由广播频道从外部接收广播信号和/或与广播相关的信息。广播频道可以包括卫星频道和地波频道。根据实施例,设备1000可以不包括广播接收接口1530。
根据实施例,通信接口1500可向另一设备2000发送从用户输入接口1100获得的用户的语音输入且可从另一设备2000接收另一用户的用户输入。
并且,根据实施例,基于确定是否发生异常情形的结果,通信接口1500可以向另一设备2000发送指示该用户的语音输入的含义的识别信息,并且可以从另一设备2000接收指示另一用户的语音输入的含义的识别信息。
并且,根据实施例,通信接口1500可以从另一设备2000接收对指示用户语音输入的含义的识别信息的请求,并且可以向另一设备2000发送对指示另一用户的语音输入的含义的识别信息的请求。
A/V输入接口1600被配置为输入音频信号或视频信号,并且可以包括相机1610、麦克风1620等。相机1610可以在视频电话模式或拍摄模式下经由图像传感器获得图像帧,诸如静止图像或视频。由图像传感器捕获的图像可以由控制器1300或附加图像处理器(未示出)处理。
麦克风1620可以接收外部声音信号,并将外部声音信号处理为电声数据。例如,麦克风1620可以从外部设备或用户接收声音信号。麦克风1620可以使用各种噪声去除算法来去除在接收外部声音信号的过程中产生的噪声。
存储器1700可以存储用于控制器1300的处理和控制操作的程序,并且可以存储输入到设备1000或从设备1000输出的数据。
根据实施例,存储器1700可以存储用户的会话日志。
存储器1700可包括闪存类型、硬盘类型、多媒体卡微型类型、卡类型存储器(例如,安全数字(SD)或极限数字(XD)存储器)、随机存取存储器(RAM)、静态RAM(SRAM)、只读存储器(ROM)、电可擦除可编程ROM(EEPROM)、可编程ROM(PROM)、磁存储器、磁盘和光盘中的至少一种类型的存储介质。
存储在存储器1700中的程序可基于它们的功能被划分成多个模块。例如,程序可被划分成用户界面(UI)模块1710、触摸屏模块1720和通知模块1730。
UI模块1710可以为每个应用提供与设备1000同步的专用UI、图形用户界面(GUI)等。触摸屏模块1720可以感测经由用户的触摸屏上的触摸手势,并向控制器1300发送与触摸手势相关的信息。根据实施例的触摸屏模块1720可识别和分析触摸代码。触摸屏模块1720可被实现为包括控制器的附加硬件。
通知模块1730可以生成通知事件的发生的信号。设备1000中发生的事件的示例可以包括呼叫信号接收、消息接收、按键信号输入、日程通知等。通知模块1730可以经由显示器1210输出为视频信号的通知信号,经由声音输出接口1220输出作为音频信号的通知信号,或者经由振动马达1230输出作为振动信号的通知信号。
图10是根据本公开实施例的控制器的框图。
参考图10,根据实施例的控制器1300可以包括数据学习器1310和数据识别器1320。
数据学习器1310可学习用于解释用户的语音输入的参考和用于确定是否发生异常情形的参考。数据学习器1310可学习关于使用哪些数据来解释用户的语音输入以及如何通过使用该数据来解释用户的语音输入的参考。并且,数据学习器1310可学习关于使用哪些数据来确定是否发生异常情形以及如何通过使用该数据来确定是否发生异常情形的参考。数据学习器1310可获得用于学习的数据,并将获得的数据应用于下面将要描述的AI语音识别模型,以便学习用于解释用户的语音输入的参考和用于确定是否发生异常情形的参考。
根据实施例,用于学习的数据可以是从用户的语音输入生成的识别信息或者从另一用户的语音输入生成的识别信息。并且,根据实施例,用于学习的数据可以是响应于用户用以校正识别信息的输入而被校正的识别信息。
数据识别器1320可解释用户的语音输入并基于数据确定是否发生异常情形。数据识别器1320可通过使用学习到的AI语音识别模型,基于特定数据来解释用户的语音输入。并且数据识别器1320可通过使用学习到的AI语音识别模型基于预定数据识别是否发生异常情形。数据识别器1320可基于根据学习而预定的参考来获得预定数据,并且通过使用获得的数据作为输入来使用AI语音识别模型以便基于预定数据来解释用户的语音输入。并且,数据识别器1320可基于根据学习而预定的参考来获得预定数据,并且通过使用获得的数据作为输入来使用AI语音识别模型以便基于预定数据来确定是否发生异常情形。并且,基于输入(即获得的数据)的AI语音识别模型的输出可用于更新AI语音识别模型。数据学习器1310和数据识别器1320中的至少一个可制造为至少一个硬件芯片并且可安装在电子设备中。例如,数据学习器1310和数据识别器1320中的至少一个可制造为AI的专用硬件芯片,或者制造为先前的通用处理器(例如,中央处理器(CPU)或应用处理器)或图形专用处理器(例如,图形处理单元(GPU))的一部分,并且可安装在上述各种电子设备中。
在这种情况下,数据学习器1310和数据识别器1320可以安装在相同的设备中,或者每个可以安装在不同的设备中。例如,数据学习器1310和数据识别器1320中的一个可以包括在设备中,另一个可以包括在服务器3000中(参考图13)。并且,数据学习器1310和数据识别器1320可以有线或无线地彼此连接,使得数据学习器1310建立的模型信息可以被提供给数据识别器1320,或者输入到数据识别器1320的数据可以被提供给数据学习器1310作为附加学习数据。
数据学习器1310和数据识别器1320中的至少一个可以实现为软件模块。当数据学习器1310和数据识别器1320中的至少一个被实现为软件模块(或包括指令的程序模块)时,软件模块可以存储在非暂时性计算机可读记录介质中。并且,在这种情况下,一个或多个软件模块可以由操作系统(OS)或预定应用程序提供。可替换地,一个或多个软件模块中的一些可以由OS提供,而其它的可以由预定应用提供。
图11是根据本公开实施例的数据学习器的框图。
参考图11,根据实施例的数据学习器1310可以包括数据获得器1310-1、预处理器1310-2、学习数据选择器1310-3、模型学习器1310-4和模型评估器1310-5。
数据获得器1310-1可以获得解释用户的语音输入、重构会话内容、确定会话主题、确定是否发生异常情形以及生成笔记所需的数据。
例如,数据获得器1310-1可获得语音数据和文本数据。例如,数据获得器1310-1可以经由设备1000的输入设备(例如,麦克风等)接收数据。可替换地,数据获得器1310-1可经由与设备1000通信的外部设备获得数据。可替换地,数据获得器1310-1可经由与设备1000通信的服务器3000获得数据。
根据实施例的数据获得器1310-1可以通过使用语音识别技术(诸如ASR、SLU、NLU等)获得语音输入的识别信息。
预处理器1310-2可以预处理获得的数据,使得获得的数据可以用于被配置为解释用户的语音输入的学习,以及被配置为确定是否发生异常情形的学习。预处理器1310-2可以以预定格式处理获得的数据,使得下面将要描述的模型学习器1310-4可以将获得的数据用于被配置为解释用户的语音输入的学习以及被配置为确定是否发生异常情形的学习。
学习数据选择器1310-3可以从预处理的数据中选择学习所需的数据。所选择的数据可以被提供给模型学习器1310-4。学习数据选择器1310-3可以基于用于解释用户的语音输入的预定参考和用于确定是否发生异常情形的预定参考,从预处理的数据中选择学习所需的数据。并且,学习数据选择器1310-3可以基于根据模型学习器1310-4的学习而预定的参考来选择数据。
模型学习器1310-4可以基于学习数据学习关于如何解释用户的语音输入以及如何确定是否发生异常情形的参考。并且,模型学习器1310-4可以学习关于哪个学习数据用于解释用户的语音输入的参考。并且,模型学习器1310-4可以学习关于哪个学习数据用于确定是否发生异常情形的参考。
并且,模型学习器1310-4可以通过使用学习数据来训练用于解释用户的语音输入以及确定是否发生异常情形的AI语音识别模型。在这种情况下,AI语音识别模型可以是预先建立的模型。例如,AI语音识别模型可以是通过接收基本学习数据(例如,样本语音输入等)预先建立的模型。
AI语音识别模型可以通过考虑实施AI语音识别模型的领域、学习目的、设备的计算机性能等来建立。AI语音识别模型可包括例如基于神经网络的模型。例如,诸如深度神经网络(DNN)、递归神经网络(RNN)和双向递归深度神经网络(BRDNN)之类的模型可用作AI语音识别模型,但是本公开不限于此。
根据各种实施例,当存在多个预先建立的AI语音识别模型时,模型学习器1310-4可以将基本学习数据具有与输入的学习数据高度相关性的AI语音识别模型确定为用于学习的AI语音识别模型。在这种情况下,可以基于数据类型对基本学习数据进行预先分类,并且可以基于数据类型预先建立AI语音识别模型。例如,可以基于各种参考(诸如生成学习数据的区域、生成学习数据的时间、学习数据的量、学习数据的种类、学习数据的生成器、学习数据中的对象的类型等)对基本学习数据进行预先分类。
并且,模型学习器1310-4可以例如通过使用学习算法(诸如误差反向传播或梯度下降)来训练AI语音识别模型。
并且,模型学习器1310-4可以例如经由以学习数据作为输入的监督学习来训练AI语音识别模型。并且,模型学习器1310-4可以例如经由无监督学习来训练AI语音识别模型,其中在该无监督学习中,用于确定是否发生异常情形的参考是通过自身学习确定是否发生异常情形所需的数据类型而发现的,而无需指令。并且,模型学习器1310-4可以例如经由强化学习使用关于基于学习确定是否发生异常情形的结果是否正确的反馈来训练AI语音识别模型。
并且,当学习AI语音识别模型时,模型学习器1310-4可以存储学习到的AI语音识别模型。在这种情况下,模型学习器1310-4可以将学习到的AI语音识别模型存储在包括数据识别器1320的设备的存储器中。可替换地,模型学习器1310-4可以将学习到的AI语音识别模型存储在经由有线或无线网络与设备连接的服务器3000的存储器中。
在这种情况下,例如,存储学习到的AI语音识别模型的存储器也可以存储与设备的至少另一组件相关联的命令或数据。并且,存储器可以存储软件和/或程序。该程序可以包括例如内核、中间件、应用编程接口(API)和/或应用程序(或“应用”)。
模型评估器1310-5可以向AI语音识别模型输入评估数据,并且当从评估数据输出的识别结果不满足预定参考时,可以允许模型学习器1310-4再次学习。在这种情况下,评估数据可以是预定用于评估AI语音识别模型的数据。
例如,当从学习到的AI语音识别模型相对于评估数据的识别结果当中的识别结果不正确的多条评估数据的数量或比例大于预定阈值时,模型评估器1310-5可以评估这种情况为不满足预定参考标准。例如,当预定阈值被定义为2%的比率时,并且当学习到的AI语音识别模型输出关于总共1000条评估数据当中超过20条评估数据的错误识别结果时,模型评估器1310-5可以评估学习到的AI语音识别模型不合适。
当存在多个学习到的AI语音识别模型时,模型评估器1310-5可以评估每个学习到的AI语音识别模型是否满足预定参考标准,并且可以将满足预定参考标准的学习到的AI语音识别模型确定为最终AI语音识别模型。在这种情况下,当存在多个满足预定参考标准的学习到的AI语音识别模型时,模型评估器1310-5可以按照评估分数的降序将任何一个或预定数量的学习到的AI语音识别模型确定为最终AI语音识别模型。
数据学习器1310中的数据获得器1310-1、预处理器1310-2、学习数据选择器1310-3、模型学习器1310-4和模型评估器1310-5中的至少一个可以制造为至少一个硬件芯片,并且可以安装在设备中。例如,数据获得器1310-1、预处理器1310-2、学习数据选择器1310-3、模型学习器1310-4和模型评估器1310-5中的至少一个可以被制造为AI的专用硬件芯片、或先前的通用处理器(例如,CPU或应用处理器)或图形专用处理器(例如,GPU)的一部分,并且可以安装在上述各种电子设备中。
并且,数据获得器1310-1、预处理器1310-2、学习数据选择器1310-3、模型学习器1310-4和模型评估器1310-5可以安装在一个设备中,或者每一个可以安装在不同的设备中。例如,数据获得器1310-1、预处理器1310-2、学习数据选择器1310-3、模型学习器1310-4和模型评估器1310-5中的一些可以包括在设备中,而其他的可以包括在服务器3000中。
并且,数据获得器1310-1、预处理器1310-2、学习数据选择器1310-3、模型学习器1310-4和模型评估器1310-5中的至少一个可实现为软件模块。当数据获得器1310-1、预处理器1310-2、学习数据选择器1310-3、模型学习器1310-4和模型评估器1310-5中的至少一个实现为软件模块(或包括指令的程序模块)时,该软件模块可存储在非暂时性计算机可读记录介质中。并且,在这种情况下,一个或多个软件模块可以由OS或预定应用提供。可替换地,一个或多个软件模块中的一些可以由OS提供,而其他的可由预定的应用提供。
图12是根据本公开实施例的数据识别器1320的框图。
参考图12,根据一些实施例的数据识别器1320可以包括数据获得器1320-1、预处理器1320-2、识别数据选择器1320-3、识别结果提供器1320-4和模型更新器1320-5。
数据获得器1320-1可以获得解释用户的语音输入、重构会话内容、确定会话主题、确定是否发生异常情形以及生成笔记所需的数据。预处理器1320-2可以预处理获得的数据,使得获得的数据可以用于解释用户的语音输入、重构会话内容、确定会话主题、确定是否发生异常情形以及生成笔记。预处理器1320-2可以以预定格式处理获得的数据,使得下面将要描述的识别结果提供器1320-4可以使用获得的数据来解释用户的语音输入、重构会话内容、确定会话主题、确定是否发生异常情形以及生成笔记。
识别数据选择器1320-3可以从预处理的数据中选择解释用户的语音输入、重构会话内容、确定会话主题、确定是否发生异常情形以及生成笔记所需的数据。所选择的数据可以被提供给识别结果提供器1320-4。识别数据选择器1320-3可以基于用于解释用户的语音输入的预定参考来选择部分或全部预处理的数据。并且,识别数据选择器1320-3可基于用于确定是否发生异常情形的预定参考来选择部分或全部预处理的数据。并且,识别数据选择器1320-3可基于根据上述模型学习器1310-4的学习而预定的参考来选择数据。
识别结果提供器1320-4可以将所选择的数据应用于AI语音识别模型,以便解释用户的语音输入并确定是否发生异常情形。识别结果提供器1320-4可以基于数据识别的目的提供识别结果。识别结果提供器1320-4可以通过使用由识别数据选择器1320-3选择的数据作为输入,将所选择的数据应用于AI语音识别模型。并且,识别结果可以通过AI语音识别模型来确定。
例如,用户的语音输入的识别结果可以被提供为文本、音频、视频、图像或命令(例如,应用执行命令、模块功能执行命令等)。识别结果提供器1320-4可以将从用户的语音输入生成的识别信息应用于AI语音识别模型,以便提供识别信息的识别结果。例如,识别结果可以是异常情形发生等。例如,识别结果提供器1320-4可以将异常情形发生的识别结果提供为文本、音频、视频、图像或命令等。模型更新器1320-5可以基于对由识别结果提供器1320-4提供的识别结果的评估,允许更新AI语音识别模型。例如,模型更新器1320-5可以向模型学习器1310-4提供由识别结果提供器1320-4提供的识别结果,使得模型学习器1310-4可以更新AI语音识别模型。
数据识别器1320中的数据获得器1320-1、预处理器1320-2、识别数据选择器1320-3、识别结果提供器1320-4和模型更新器1320-5中的至少一个可以制造为至少一个硬件芯片,并且可以安装在设备中。例如,数据获得器1320-1、预处理器1320-2、识别数据选择器1320-3、识别结果提供器1320-4和模型更新器1320-5中的至少一个可以被制造为AI的专用硬件芯片、或先前的通用处理器(例如,CPU或应用处理器)或图形专用处理器(例如,GPU)的一部分,并且可以安装在上述各种电子设备中。
并且,数据获得器1320-1、预处理器1320-2、识别数据选择器1320-3、识别结果提供器1320-4和模型更新器1320-5可以安装在一个设备中,或者每一个可以安装在不同的设备中。例如,数据获得器1320-1、预处理器1320-2、识别数据选择器1320-3、识别结果提供器1320-4和模型更新器1320-5中的一些可以包括在设备中,而其他的可以包括在服务器3000中。
并且,数据获得器1320-1、预处理器1320-2、识别数据选择器1320-3、识别结果提供器1320-4和模型更新器1320-5中的至少一个可以实现为软件模块。当数据获得器1320-1、预处理器1320-2、识别数据选择器1320-3、识别结果提供器1320-4和模型更新器1320-5中的至少一个被实现为软件模块(或包括指令的程序模块)时,软件模块可以存储在非暂时性计算机可读记录介质中。并且,在这种情况下,一个或多个软件模块可以由OS或预定应用提供。可替换地,一个或多个软件模块中的一些可以由OS提供,而其他的可以由预定的应用提供。
图13是根据本公开的实施例的设备和服务器彼此同步以学习和识别数据的示例的视图。
参考图13,服务器3000可以学习用于解释用户的语音输入的参考和用于确定是否发生异常情形的参考,并且设备1000可以解释用户的语音输入并基于服务器3000的学习结果确定是否发生异常情形。根据实施例,服务器3000可以包括数据学习器3300。数据学习器3300可以包括数据获得器3310、预处理器3320、学习数据选择器3330、模型学习器3340和模型评估器3350。
在这种情况下,服务器3000的模型学习器3340可执行图11所示的数据学习器1310的功能。服务器3000的模型学习器3340可学习关于使用哪些数据来解释用户的语音输入以及确定是否发生异常情形的参考,以及关于如何解释用户的语音输入以及通过使用数据来确定是否发生异常情形的参考。模型学习器1340可以通过获得用于学习的数据并将获得的数据应用于AI语音识别模型来学习用于解释用户的语音输入的参考和用于确定是否发生异常情形的参考。
并且,设备1000的识别结果提供器1320-4可将识别数据选择器1320-3选择的数据应用于服务器3000生成的AI语音识别模型,以便解释用户的语音输入以及确定是否发生异常情形。例如,识别结果提供器1320-4可以将识别数据选择器1320-3选择的数据发送到服务器3000,并且可请求服务器3000将识别数据选择器1320-3选择的数据应用于AI语音识别模型,以便解释用户的语音输入以及确定是否发生异常情形。识别结果提供器1320-4可以从服务器3000接收关于由服务器3000执行的语音输入的解释的信息。并且,识别结果提供器1320-4可以从服务器3000接收关于经由服务器3000确定是否发生异常情形的信息。设备1000可以将用户生成的语音输入发送到服务器3000。服务器3000可通过使用语音识别技术(诸如ASR、SLU、NLU等)来分析语音输入。服务器3000可分析语音输入,并且可生成识别信息并将识别信息发送到设备1000。设备1000可以从服务器3000接收语音输入的识别信息。
可替换地,设备1000的识别结果提供器1320-4可以从服务器3000接收由服务器3000生成的AI语音识别模型,并且可以通过使用接收到的AI语音识别模型来解释用户的语音输入以及确定是否发生异常情形。在这种情况下,设备1000的识别结果提供器1320-4可以通过将识别数据选择器1320-3选择的数据应用于从服务器3000接收到的AI语音识别模型来解释用户的语音输入以及确定是否发生异常情形。
计算机可读记录介质可以是计算机可访问的任意可用介质,并且其示例包括所有易失性和非易失性介质以及可分离和不可分离介质。此外,计算机可读记录介质的示例可以包括计算机存储介质和通信介质。计算机存储介质的示例包括所有易失性和非易失性介质以及可分离和不可分离介质,它们已经通过任意方法或技术实现,用于存储诸如计算机可读命令、数据结构、程序模块和其他数据的信息。通信介质通常包括计算机可读命令、数据结构、程序模块、调制数据信号的其他数据、或另一种传输机制,并且其示例包括任意信息传输介质。
并且,在本说明书中,“接口”可以包括硬件组件(诸如处理器或电路)、和/或由硬件组件(诸如处理器)执行的软件组件。
虽然已经参考本公开的各种实施例示出和描述了本公开,但是本领域技术人员将理解,在不脱离由所附权利要求及其等同限定的本公开的精神和范围的情况下,可以在形式和细节上进行各种改变。
Claims (15)
1.一种用于向另一设备发送音频数据和从另一设备接收音频数据的设备,包括:
用户输入接口,被配置为获得由所述设备的第一用户输入的语音输入;
通信接口,被配置为向所述另一设备发送所获得的语音输入;以及
控制器,被配置为:
通过使用第一人工智能AI语音识别模型来获得指示所获得的语音输入的含义的识别信息,其中所述第一AI语音识别模型是个性化AI语音识别模型,并且
确定是否发生其中所述另一设备的第二用户不理解所发送的语音输入的异常情形,
其中,所述通信接口被进一步配置为基于所述确定的结果,向所述另一设备发送所获得的识别信息。
2.根据权利要求1所述的设备,其中,所述控制器还被配置为:
获得被配置为解释第一用户的语音输入的第一AI语音识别模型,并且
通过使用第一AI语音识别模型生成指示第一用户的语音输入的含义的文本。
3.根据权利要求2所述的设备,其中,所述第一AI语音识别模型在所述设备中生成,并在所述设备中注册。
4.根据权利要求2所述的设备,其中,所述第一AI语音识别模型在所述第一用户的另一设备中生成,并提供给所述设备。
5.根据权利要求1所述的设备,进一步包括:
显示器,被配置为当所述异常情形发生时,在所述设备的屏幕上显示检查所获得的识别信息是否指示所述语音输入的含义的检查消息,
其中,所述控制器被进一步配置为响应于所显示的检查消息,基于由第一用户生成的用以校正识别信息的输入来校正所述识别信息,并且
其中,所述通信接口被进一步配置为向所述另一设备发送校正后的识别信息。
6.根据权利要求1所述的设备,其中,所述控制器被进一步配置为通过分析从所述另一设备接收到的第二用户的至少一个语音输入来确定所述异常情形是否发生。
7.根据权利要求6所述的设备,其中,所述控制器被进一步配置为:
将第二用户的至少一个语音输入转换成文本,并且
基于经转换的文本中是否包括预定短语来确定所述异常情形是否发生。
8.根据权利要求1所述的设备,其中,所述通信接口被进一步配置为从所述另一设备接收对指示所述语音输入的含义的识别信息的请求。
9.根据权利要求1所述的设备,其中,所述通信接口被进一步配置为从所述另一设备接收指示第二用户的语音输入的含义的识别信息,所述语音输入是由第二用户输入到所述另一设备的,以及
其中,所述控制器被进一步配置为:
基于指示第一用户的语音输入的含义的识别信息和指示第二用户的语音输入的含义的识别信息,分析第一用户和第二用户之间的会话内容,并且
基于所分析的会话内容,确定所述异常情形是否发生。
10.根据权利要求1所述的设备,进一步包括:
存储器,被配置为存储第一用户的会话日志,
其中,所述通信接口被进一步配置为从所述另一设备接收第二用户的会话日志,以及
其中,所述控制器被进一步配置为:
基于所存储的第一用户的会话日志和所接收到的第二用户的会话日志重构会话内容,
通过分析所重构的会话内容来确定会话主题,
从所重构的会话内容中提取发生其中第一用户不理解从所述另一设备接收到的第二用户的语音输入的异常情形的部分,并且
生成笔记,所述笔记包括所重构的会话内容、所确定的会话主题和所提取的其中发生所述异常情形的部分中的至少一个。
11.一种由设备执行的向另一设备发送音频数据和从另一设备接收音频数据的方法,所述方法包括:
获得由所述设备的第一用户输入的语音输入;
通过使用第一人工智能AI语音识别模型来获得指示所获得的语音输入的含义的识别信息,其中所述第一AI语音识别模型是个性化AI语音识别模型;
向所述另一设备发送所获得的语音输入;
确定是否发生其中所述另一设备的第二用户不理解所发送的语音输入的异常情形;以及
基于所述确定的结果,向所述另一设备发送所获得的识别信息。
12.根据权利要求11所述的方法,进一步包括:
获得被配置为解释第一用户的语音输入的第一AI语音识别模型,
其中,获得所述识别信息包括通过使用第一AI语音识别模型生成指示第一用户的语音输入的含义的文本。
13.根据权利要求12所述的方法,其中,所述第一AI语音识别模型在第一用户的另一设备中生成,并提供给所述设备。
14.根据权利要求11所述的方法,进一步包括:
当所述异常情形发生时,在所述设备的屏幕上显示检查所获得的识别信息是否指示所述语音输入的含义的检查消息;以及
响应于所显示的检查消息,基于由第一用户生成的用以校正识别信息的输入来校正所述识别信息,
其中,发送所获得的识别信息包括向所述另一设备发送校正后的识别信息。
15.一种非暂时性计算机可读记录介质,其上包含有用于执行权利要求11的方法的程序。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2016-0179317 | 2016-12-26 | ||
KR20160179317 | 2016-12-26 | ||
KR1020170148328A KR102458343B1 (ko) | 2016-12-26 | 2017-11-08 | 음성 데이터를 송수신하는 디바이스 및 방법 |
KR10-2017-0148328 | 2017-11-08 | ||
PCT/KR2017/015178 WO2018124620A1 (en) | 2016-12-26 | 2017-12-21 | Method and device for transmitting and receiving audio data |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110226202A CN110226202A (zh) | 2019-09-10 |
CN110226202B true CN110226202B (zh) | 2023-06-23 |
Family
ID=62912981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780084788.0A Active CN110226202B (zh) | 2016-12-26 | 2017-12-21 | 用于发送和接收音频数据的方法和设备 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP3545519B1 (zh) |
KR (1) | KR102458343B1 (zh) |
CN (1) | CN110226202B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020060151A1 (en) * | 2018-09-19 | 2020-03-26 | Samsung Electronics Co., Ltd. | System and method for providing voice assistant service |
KR102540177B1 (ko) * | 2019-01-11 | 2023-06-05 | (주)액션파워 | 화자 간 중첩되는 음성을 분리하여 대화록 서비스를 제공하는 방법 |
CN112489672A (zh) * | 2020-10-23 | 2021-03-12 | 盘正荣 | 一种虚拟隔音通信系统与方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003143256A (ja) * | 2001-10-30 | 2003-05-16 | Nec Corp | 端末装置と通信制御方法 |
US20070112571A1 (en) * | 2005-11-11 | 2007-05-17 | Murugappan Thirugnana | Speech recognition at a mobile terminal |
JP2008064885A (ja) * | 2006-09-05 | 2008-03-21 | Honda Motor Co Ltd | 音声認識装置、音声認識方法、及び音声認識プログラム |
US8386260B2 (en) * | 2007-12-31 | 2013-02-26 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US20090234655A1 (en) * | 2008-03-13 | 2009-09-17 | Jason Kwon | Mobile electronic device with active speech recognition |
US20100268534A1 (en) * | 2009-04-17 | 2010-10-21 | Microsoft Corporation | Transcription, archiving and threading of voice communications |
US9159322B2 (en) * | 2011-10-18 | 2015-10-13 | GM Global Technology Operations LLC | Services identification and initiation for a speech-based interface to a mobile device |
US9245254B2 (en) * | 2011-12-01 | 2016-01-26 | Elwha Llc | Enhanced voice conferencing with history, language translation and identification |
US9477925B2 (en) * | 2012-11-20 | 2016-10-25 | Microsoft Technology Licensing, Llc | Deep neural networks training for speech and pattern recognition |
US10586556B2 (en) * | 2013-06-28 | 2020-03-10 | International Business Machines Corporation | Real-time speech analysis and method using speech recognition and comparison with standard pronunciation |
KR20160080711A (ko) * | 2014-12-30 | 2016-07-08 | 한국전자통신연구원 | 통신 기반 통역 장치, 방법 및 시스템 |
US9497315B1 (en) * | 2016-07-27 | 2016-11-15 | Captioncall, Llc | Transcribing audio communication sessions |
-
2017
- 2017-11-08 KR KR1020170148328A patent/KR102458343B1/ko active IP Right Grant
- 2017-12-21 EP EP17887809.6A patent/EP3545519B1/en active Active
- 2017-12-21 CN CN201780084788.0A patent/CN110226202B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
EP3545519A1 (en) | 2019-10-02 |
EP3545519A4 (en) | 2019-12-18 |
EP3545519B1 (en) | 2023-07-19 |
KR20180075376A (ko) | 2018-07-04 |
CN110226202A (zh) | 2019-09-10 |
KR102458343B1 (ko) | 2022-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11031000B2 (en) | Method and device for transmitting and receiving audio data | |
US11769492B2 (en) | Voice conversation analysis method and apparatus using artificial intelligence | |
EP4006901A1 (en) | Audio signal processing method and apparatus, electronic device, and storage medium | |
US11094316B2 (en) | Audio analytics for natural language processing | |
CN111226224B (zh) | 用于翻译语音信号的方法及电子设备 | |
CN110100277B (zh) | 语音识别方法和装置 | |
US11501755B2 (en) | Apparatus and method for providing voice assistant service | |
US11514916B2 (en) | Server that supports speech recognition of device, and operation method of the server | |
CN110226202B (zh) | 用于发送和接收音频数据的方法和设备 | |
US20230036080A1 (en) | Device and method for providing recommended words for character input | |
US11210525B2 (en) | Method and terminal for providing content | |
US11817097B2 (en) | Electronic apparatus and assistant service providing method thereof | |
US11942077B2 (en) | Electronic device and operating method thereof | |
KR20180054362A (ko) | 사용자의 음성 입력을 인식하는 방법 및 장치 | |
CN111095208B (zh) | 用于提供对设备使用询问的响应的设备和方法 | |
WO2018043137A1 (ja) | 情報処理装置及び情報処理方法 | |
US20200402498A1 (en) | Information processing apparatus, information processing method, and program | |
KR102677052B1 (ko) | 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법 | |
KR20210066651A (ko) | 전자 장치 및 이의 제어 방법 | |
KR20190117856A (ko) | 사용자와의 대화를 위한 정보를 생성하는 시스템 및 방법 | |
KR20210098247A (ko) | 전자 장치 및 그 동작방법 | |
US12001808B2 (en) | Method and apparatus for providing interpretation situation information to one or more devices based on an accumulated delay among three devices in three different languages | |
US12039995B2 (en) | Audio signal processing method and apparatus, electronic device, and storage medium | |
KR20210019930A (ko) | 디바이스의 음성 인식을 지원하는 서버 및 그의 동작 방법 | |
KR20210144975A (ko) | 텍스트 시퀀스를 번역하는 전자 장치 및 그 동작 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |