CN111258529B - 电子设备及其控制方法 - Google Patents
电子设备及其控制方法 Download PDFInfo
- Publication number
- CN111258529B CN111258529B CN201911217718.5A CN201911217718A CN111258529B CN 111258529 B CN111258529 B CN 111258529B CN 201911217718 A CN201911217718 A CN 201911217718A CN 111258529 B CN111258529 B CN 111258529B
- Authority
- CN
- China
- Prior art keywords
- electronic device
- text data
- voice data
- data
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012790 confirmation Methods 0.000 claims abstract description 98
- 238000004891 communication Methods 0.000 claims abstract description 51
- 230000004044 response Effects 0.000 claims abstract description 31
- 238000010200 validation analysis Methods 0.000 abstract description 33
- 238000004422 calculation algorithm Methods 0.000 abstract description 7
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 238000010801 machine learning Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 32
- 238000012545 processing Methods 0.000 description 32
- 238000010586 diagram Methods 0.000 description 29
- 230000009471 action Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003155 kinesthetic effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/224—Monitoring or handling of messages providing notification on incoming messages, e.g. pushed notifications of received messages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
Abstract
公开了一种电子设备。电子设备可响应于至少一个事件的发生,执行利用通信模块与另一电子设备发送和接收文本数据或语音数据中至少之一的应用;基于从另一电子设备接收到文本数据或语音数据中的至少之一、利用数字助手根据言辞的特征生成了文本数据或语音数据中的至少之一,利用数字助手识别出需要进行确认;基于需要进行确认,利用数字助手生成用以请求确认的通知;以及利用应用输出所述通知。用于识别需要进行确认的方法可包括:利用基于规则的算法或AI算法,利用从另一电子设备接收的语音数据或文本数据进行识别。当利用AI算法识别出需要进行确认时,该方法可使用机器学习、神经网络或深度学习算法。
Description
技术领域
本公开涉及利用数字助手与另一电子设备发送和接收文本数据或语音数据的电子设备。
背景技术
除了利用键盘或鼠标的传统输入方法之外,近来的电子设备还可支持诸如语音输入的各种输入方法。例如,诸如智能电话或平板计算机的电子设备可在执行数字助手功能时识别用户的语音输入,执行与语音输入对应的操作,或者提供搜索结果。
在用于处理自然语言的技术的基础上,已经研发了数字助手功能。用于处理自然语言的技术在于掌握用户言辞的意图并且向用户提供与意图对应的结果。
在该情况下,电子设备可利用显示器提供结果或者通过语音提供结果。
发明内容
本公开的实施方式至少解决上述问题和/或不足,并且至少提供下面描述的益处。因此,本公开的示例性方面在于提供这样的方法:在数字助手利用用户言辞的特征生成语音数据或文本数据时识别需要用户进行确认的场景。
根据本公开的另一示例性方面,提供了这样的方法:当数字助手利用用户言辞的特征生成语音数据或文本数据时,输出由数字助手生成数据的显示。
根据本公开的另一示例性方面,提供了这样的方法:通过数字助手,利用与另一电子设备接收或发送的语音数据或文本数据中的至少一部分生成并输出新的文本数据或语音数据。
根据示例性实施方式,电子设备包括通信模块(包括通信电路)、处理器和存储器,存储器可存储至少一个命令,所述至少一个命令在被处理器执行时控制电子设备执行:响应于至少一个事件的发生,执行利用通信模块与另一电子设备发送和接收文本数据或语音数据中的至少之一的应用;基于从另一电子设备接收到文本数据或语音数据中的至少之一,以及基于利用数字助手根据言辞的特征生成了文本数据或语音数据中的至少之一,利用数字助手识别是否需要进行确认;基于需要进行确认,利用数字助手生成请求确认的通知;以及利用应用输出通知。
根据示例性实施方式,可基于电子设备利用数字助手根据言辞的特征生成语音数据或文本数据,识别出需要进行确认的情形。
根据示例性实施方式,可基于电子设备利用数字助手根据言辞的特征生成语音数据或文本数据,输出告知数字助手生成了数据的显像。
根据实施方式,电子设备可使用数字助手、利用与另一电子设备发送或接收的语音数据或文本数据的至少一部分生成并输出新的文本数据或语音数据。
根据结合附图披露本公开的各实施方式的以下详细描述,本公开的其他方面、益处和显著特征对于本领域技术人员将变得明显。
附图说明
根据结合附图的以下详细描述,本公开的某些实施方式的以上和其他方面、特征和益处将更加明显,在附图中:
图1是示出根据本公开实施方式的利用数字助手功能与另一电子设备共享文本消息的示例的图形;
图2是示出根据实施方式的示例性电子设备和服务器的框图;
图3是示出根据实施方式的电子设备利用数字助手识别用户的意见与第三方的意见不一致的情形并且对其作出应答的示例的图形;
图4是示出根据实施方式的电子设备利用使用数字助手的用户的答复速度历史对与第三方的对话进行应答的示例的图形;
图5是示出根据实施方式的电子设备利用数字助手确认新的信息并且对与第三方的对话进行应答的示例的图形;
图6是示出根据实施方式的电子设备利用数字助手概括并显示对话内容的示例的图形;
图7是示出根据各实施方式的电子设备利用数字助手概括并显示对话内容的示例的图形;
图8是示出根据实施方式的利用数字助手在等候用户的确认期间电子设备引导另一电子设备的用户的示例的图形;
图9是示出根据实施方式的执行数字助手的示例性过程的框图;
图10是示出根据实施方式的通过数字助手确定生成用户的通知的重要性级别所使用的示例性学习模型的图形;
图11是示出根据实施方式的用户指示确认模型的示例性功能的图形;
图12是示出根据实施方式的答复类型确认模型的示例性功能的图形;
图13是示出根据实施方式的答复时间确认模型的示例性功能的图形;
图14是示出根据实施方式的答复时间确认模型的示例性功能的图形;
图15是示出根据实施方式的电子设备利用数字助手与第三方发送和接收文本数据或语音数据的示例性操作的流程图;
图16是示出根据实施方式的电子设备和服务器利用数字助手与第三方发送和接收文本数据或语音数据的示例性操作的流程图;以及
图17是示出根据各实施方式的处于网络环境中的示例性电子设备的框图。
在整个附图中,相同的附图标记用于表示相同的元件。
具体实施方式
在下文中,将参考附图描述本公开的各示例性实施方式。然而应理解,本公开不局限于特定的实施方式,而是包括根据本公开的实施方式的各种修改、等同和/或替代。在整个附图,相似的组件将由相似的附图标记表示。
本公开的示例性实施方式中使用的术语“具有”、“可具有”、“包括”和“可包括”表明存在相应的特征(例如,诸如数值、功能、操作或部件的元件),但不排除存在另外的特征。
在说明书中,术语“A或B”、“A或/和B中的至少一个”或者“A或/和B中的一个或多个”可包括共同列举的项目的全部可能组合。例如,术语“A或/和B中的至少一个”包括:(1)包括至少一个A,(2)包括至少一个B,或者(3)包括至少一个A和至少一个B两者。
此外,本公开中使用的表述“第一”、“第二”等可指各种组件而与组件的顺序和/或重要性无关,可用于将一个组件与其他组件区分开,并且不限制相应组件。例如,第一用户设备和第二用户设备可指不同的用户设备,而与其顺序或重要性无关。例如,在没有脱离本公开的范围的情况下,第一组件可命名为第二组件,并且第二组件也可类似地命名为第一组件。
诸如“模块”、“单元”、“部件”等的术语可用于表示执行至少一个功能或操作的元件,并且这样的元件可实现为硬件或软件或者硬件和软件的组合。此外,除了多个“模块”、“单元”、“部件”等中的每一个需要在各个硬件中实现的情况之外,组件可集成到至少一个模块或芯片中并且可在至少一个处理器中实现。
当任何组件(例如,第一组件)被(操作性地或通信地)与另一组件(例如,第二组件)联接/联接至或连接至另一组件(例如,第二组件)时,应理解,任何组件可直接与另一组件联接/直接地联接至另一组件,或者可通过其他组件(例如,第三组件)与另一组件联接/联接至另一组件。另一方面,当任何组件(例如,第一组件)直接地与另一组件(例如,第二组件)联接/直接联接至或直接连接至另一组件(例如,第二组件)时,应理解,在直接联接的组件之间不存在其他组件(例如,第三组件)。
本公开中使用的术语可用于描述特定的实施方式,但不限制其他实施方式的范围。除非上下文清楚地另行指出,否则单数形式旨在包括复数形式。本公开中使用的术语(包括技术术语和科学术语)可具有与本公开所属领域中的技术人员通常所理解的含义相同的含义。除非本公开中清楚地限定,否则在本公开中使用的术语之中,在常用词典中限定的术语可解释为与相关领域的上下文内的含义相同或相似的含义,而不解释为理想化或过于形式化的含义。在一些情况中,即使在可能在本公开中对术语进行了定义的情况中,术语也不必解释为与本公开的实施方式相排斥。
图1是示出根据实施方式,利用数字助手功能与另一电子设备共享文本消息的示例的图形。
数字助手功能例如可表示接收和识别用户的语音或用户输入的文本,以及响应于用户的语音或用户输入的文本生成用于操作应用的命令。操作应用例如可表示响应于用户输入生成并且输出语音或文本形式的应答。操作应用例如可表示响应于用户输入执行至少一个或多个功能。然而,数字助手功能不限于此。
根据各实施方式,数字助手功能例如可表示响应于从另一电子设备接收的语音数据或文本数据生成用于操作应用的命令。
根据示例性实施方式,数字助手功能(在下文中称为数字助手)可利用电子设备10来实现。数字助手可利用电子设备10和至少一个服务器来实现。服务器可包括云服务器。
根据示例性实施方式,电子设备10可通过存储在电子设备10中的应用(或应用程序)(例如,电话呼叫应用、消息应用、社交网络服务(SNS)应用)提供用户所需要的功能或服务。
根据实施方式,电子设备10例如可包括而不限于:移动电话、智能电话、个人数字助理(PDA)、移动式机器人、人工智能(AI)扬声器、可连接至互联网的各种设备(诸如笔记本计算机)等。
在下文中,描述执行数字助手的情况。
根据实施方式,电子设备10可接收用户言辞作为用户输入。电子设备10可接收用户言辞并且基于用户言辞来操作应用。
根据实施方式,电子设备10可与至少一个服务器相关联地实现数字助手。
例如,电子设备10可接收用户言辞作为用户输入。电子设备10可向至少一个或多个服务器发送所接收的言辞。至少一个服务器可接收来自电子设备10的用户语音输入并且将用户语音输入改变成文本数据。至少一个服务器可基于文本数据生成(或选择)路径规则。路径规则可包括与用于执行应用的功能的动作(或操作)有关的信息或与执行操作所需的参数有关的信息。路径规则还可包括应用的操作顺序。此外,路径规则可包括多个应用的操作顺序。电子设备10可接收路径规则,根据路径规则选择应用,并且执行所选择的应用中的路径规则中所包括的操作。
根据实施方式,至少一个服务器可包括存储用户信息的数据库。至少一个服务器可从电子设备10接收用户信息(例如,呼叫日志、文本输入历史、上下文信息、应用执行信息等),并且将其存储在数据库中。至少一个服务器可使用数据库中所包括的信息来生成用于用户输入的路径规则。
根据示例性实施方式,至少一个服务器可包括这样的数据库,其存储有与存储在电子设备10中的功能有关的信息、应用的介绍或者与待提供的功能有关的信息。例如,至少一个服务器可利用用户信息生成用户可使用的功能的数据库。电子设备10可通过通信网络接收与可从至少一个服务器提供的功能有关的信息并且向用户提供所接收的信息。
根据示例性实施方式,电子设备10可将用户输入接收为文本。例如,电子设备10和至少一个服务器可执行与以上描述的操作相同的操作(将用户言辞转换为文本的操作除外),并且执行路径规则中所包括的操作。
根据示例性实施方式,电子设备10可执行与以上描述的至少一个服务器相同或相似的操作。例如,电子设备10可利用数字助手接收用户言辞并且将用户言辞转换成文本数据。电子设备10可基于文本数据生成路径规则。电子设备10可根据路径规则选择应用,并且执行所选择的应用中的路径规则中所包括的操作。
根据各实施方式,至少一个服务器或电子设备10可包括通过学习提高识别能力的学习模型,诸如自然语言理解模块、自然语言生成模块等。例如,学习模型可以是利用AI算法进行训练的模型,诸如,例如而不限于机器学习、神经网络或深度学习算法等。例如,可在识别用户言辞以及将言辞改变成文本数据的过程中使用AI算法。下面将参照图9和图10更详细地对其进行描述。
参考图1,电子设备10可响应于至少一个事件的发生,执行与另一电子设备接收或发送文本数据或语音数据中至少之一的应用。
至少一个事件例如可表示从用户接收执行与另一电子设备发送和接收文本数据或语音数据中至少之一的应用的命令。至少一个事件可表示从另一电子设备接收文本数据或语音数据。
与另一电子设备接收或发送文本数据或语音数据中至少之一的应用可以例如而不限于是消息应用、语音呼叫应用、社交网络服务(SNS)应用等中的至少之一。
在下文中,假设并且描述成电子设备10利用消息应用执行数字辅助并且与另一电子设备进行对话。然而应理解,这仅是为了方便和易于解释,本公开不限于此。
根据实施方式,电子设备10可执行消息应用,并且可在显示器11上显示响应于用户输入而生成的文本数据以及消息应用的执行屏幕110,其中执行屏幕110显示从另一电子设备接收的文本数据。
参考图1,电子设备10可在消息应用的执行屏幕110上显示从另一电子设备接收的消息“你今天有时间吗?”121。可在消息应用的执行屏幕110上显示与通过另一电子设备使用消息应用的对应方相关的信息(例如,对应方的图像K)。
根据实施方式,当从另一电子设备接收到文本数据或语音数据的至少之一时,电子设备10可利用数字助手基于用户言辞的特征生成文本数据或语音数据中的至少之一并且利用应用输出数据。
电子设备10可利用数字助手基于从另一电子设备接收的文本数据或语音数据生成路径规则。例如,电子设备10可响应于“你今天有时间吗?”121生成路径规则以生成答复。
电子设备10可利用预先存储的用户言辞的特征生成文本数据“我下午3点前有约”131,向另一电子设备发送该文本数据,并且在消息应用的执行屏幕110上显示。例如,电子设备10可利用呼叫日志、用户的测试输入历史中至少之一获得用户言辞的特征,并且在讲话结束时生成反应用户未正确发音的用户言辞的特征的文本数据。电子设备10可在消息应用的执行屏幕110上显示与用户(例如,用户的图像J)相关的信息。
电子设备10可利用用户的上下文信息(例如,位置、时间等)、应用执行信息(例如,网络搜索历史、与执行较多的应用有关的信息、与最近安装的应用有关的信息等)生成文本。例如,电子设备10可利用搜索过A电影的用户的搜索历史,针对从另一电子设备接收的文本数据“你想看电影吗?”123生成语句“我认为A电影有趣”133。
根据各实施方式,电子设备10可利用数字助手连同所生成的文本数据一起向另一电子设备发送指示与接收自另一电子设备的文本对应的文本数据被生成和显示的指示符131a,并且可在消息应用的执行屏幕110上显示指示符131a。
根据实施方式,在基于用户言辞的特征生成文本数据或语音数据中至少之一的状态下,电子设备10可利用数字辅助识别需要用户进行确认的情形。
需要用户进行确认的情形可以是需要对用户的指示进行确认的情形。例如,这可以是由用户生成的文本数据或语音数据中所包括的一些内容与从另一电子设备接收的文本数据或语音数据的一些内容不相同情形。
需要用户进行确认的情形可以是例如数字助手应生成的文本数据或语音数据需要确定是否接受建议的情形。例如,如果在从另一电子设备接收的文本数据或语音数据中包括建议,则电子设备10可识别该情形为需要用户进行确认的情形,因为可能需要谨慎的答复。
需要用户进行确认的情形可以是例如用户具有用户发出与数字助手应生成的语音数据类似的语音的历史并且需要对用户言辞响应时间进行确认的情形。换言之,如果与第三方的语音对应的用户时间长于预定时间(例如,多于用户的平均答复占用时间),则其可能是需要谨慎的答复的情形,使得电子设备10可将该情形识别为需要来自用户的确认的情形。
需要用户进行确认的情形可以是例如从另一电子设备接收的文本数据或语音数据中的至少一些内容和预存在电子设备中的文本数据或语音数据的相似度小于或等于预定值的情形。该情形可以是要求谨慎答复的情形,因此电子设备10可将该情形识别为需要用户进行确认的情形。
参考图1,电子设备10可在消息应用的执行屏幕110上显示“那么,我们下午4点去看电影然后吃晚餐吧”125。
例如,电子设备10可识别出所接收的消息的内容中包括了对应方的建议。基于所识别的结果,电子设备10可识别出在响应于从另一电子设备接收的“那么,我们下午4点去看电影然后吃晚餐吧”125生成文本数据的情形中需要用户进行确认。
根据实施方式,电子设备10可利用数字助手在需要用户进行确认时生成请求用户进行确认的通知,并且利用应用输出所述通知。
参考图1,电子设备10可利用数字助手响应于从另一电子设备接收的“那么,我们下午4点去看电影然后吃晚餐吧”125生成请求用户进行确认的通知。
根据从另一电子设备接收的文本数据,向用户请求确认的通知例如可包括对于下午4点的约会的文本数据以及可接收与文本数据有关的用户输入的选择对象。参考图1,电子设备10可利用数字助手生成文本数据“我们可以定下午4点的日程吗?”135、接收确认的对象135b、接收拒绝的对象135c以及用于接收用户的直接输入进程的对象135d,并且可在消息应用的执行屏幕110上将其显示。在该情况中,电子设备10可连同指示能够接收用户的输入的所选对象尚未被发送至另一电子设备的指示符135a一起,显示与下午4点的约会有关的文本数据。
参考图1,电子设备10可将由用户直接输入的用户直接输入“好。我们到时见”127发送至另一设备,并且可在消息应用的执行屏幕110上将其显示。例如,电子设备10可响应于选择用于接收直接输入进程的对象135d的用户输入,显示用于输入文本的弹窗。电子设备10可向另一电子设备发送通过用于输入文本的弹窗所输入的文本数据,并且可在消息应用的执行屏幕110上显示所述文本数据。在该情况下,电子设备10还可显示指示已经通过用户的直接输入生成“好。我们到时见”127的指示符127a。
根据各实施方式,电子设备10可利用至少一个服务器生成并显示与从另一电子设备接收的文本对应的文本数据。例如,电子设备10可向至少一个服务器发送从另一电子设备接收的文本数据,接收由至少一个服务器基于所接收的文本数据而生成的文本数据,并且在消息应用的执行屏幕110上显示所述文本数据。
根据各实施方式,电子设备10可利用数字助手基于从另一电子设备接收的或向另一电子设备发送的文本数据或语音数据的内容来登记日程。例如,电子设备10可利用数字助手将在下午4点访问B美发沙龙的日程添加至日程应用,并且通过执行日程应用通知添加日程的用户。
根据各实施方式,当需要用户进行确认时,电子设备10可利用多种方法向用户提供通知。例如,电子设备10可通过数字助手提供用于选择向用户提供通知的应用的用户接口。例如,电子设备10可引导选择呼叫应用、电子邮件应用、SMS应用和消息应用中的至少之一。此外,电子设备10可引导使用上述应用中的全部,或者可针对上述应用选择操作的优先级。
如上所述,根据示例性实施方式,代替用户,电子设备10可利用数字助手响应于从另一电子设备接收的文本数据或语音数据生成文本数据或语音数据。例如,电子设备10可利用数字助手识别需要用户进行确认的情形,并且可向用户提供通知。当需要谨慎的决定时,用户可主动地介入数字助手和第三方之间的对话。
图2是示出根据实施方式的示例性电子设备和服务器的框图。
参考图2的2-a,电子设备10可包括处理器(例如,包括处理电路)210、通信模块(例如,包括通信电路)220以及存储器230,但是不限于此。电子设备10可省略组件中的一部分或者可包括额外的组件。
根据实施方式,处理器210可通过控制存储器230执行存储在存储器230中的程序,并且可检索或存储需要的信息。
例如,处理器210可包括各种处理电路,并且可:响应于至少一个事件的发生,执行利用通信模块与另一电子设备发送或接收文本数据或语音数据中的至少一者的应用,以及在从另一电子设备接收到文本数据或语音数据中的至少一者时,利用数字助手基于用户言辞的特征生成文本数据或语音数据中的至少一者;利用应用输出所述数据,以及在基于用户言辞的特征生成文本数据或语音数据中的至少一者的情况中,利用数字助手识别需要用户进行确认的情形;以及在需要用户进行确认的情形中,利用数字助手生成请求用户进行确认的通知并且利用应用输出所述通知。
根据实施方式,通信模块220可包括各种通信电路,并且可在处理器210的控制下与外部设备(例如,另一电子设备、服务器等)连接。通信模块220可包括包含各种通信电路的各种组件,所述通信电路执行各种有线通信方法或无线通信方法,举例来说,例如而不限于,无线局域网(LAN)、蓝牙、有线以太网等,以与电子设备10的功能和结构对应。
根据实施方式,存储器230可存储响应于至少一个事件的发生利用通信模块与另一电子设备发送和接收文本数据或语音数据中的至少一者的应用。利用数字助手,当从另一电子设备接收到文本数据或语音数据中的至少一者时,可基于用户言辞的特征生成文本数据或语音数据中的至少一者,并且可利用应用输出所述数据。在基于用户言辞的特征生成文本数据或语音数据中的至少一者的情况中,利用数字助手识别需要用户进行确认的情形;以及在需要用户进行确认的情形中,可利用数字助手生成请求用户进行确认的通知,并且可存储设定成输出应用的命令。
参考图2的2-b,服务器20可包括数据获取单元(例如,包括数据获取电路)250、数据处理器(例如,包括数据处理电路)260以及数据输出器(例如,包括数据输出电路)270。服务器20可包括如图1中所示的至少一个服务器。
根据实施方式,数据获取单元250可包括各种数据获取电路,诸如,例如而不限于各种处理电路和/或可执行程序元件,并且可从外部设备获取文本数据或语音数据中的至少一者。
根据实施方式,数据处理器260可包括各种数据处理电路,诸如,例如而不限于,各种处理电路和/或可执行程序元件,并且当从外部设备接收到文本数据或语音数据中的至少一者时,可利用数字助手基于用户言辞的特征生成文本数据或语音数据中的至少一者。在生成文本数据或语音数据中的至少一者时,数据处理器260可利用数字助手识别需要用户进行确认的情形。
根据实施方式,数据输出器270可包括各种数据输出电路并且可向外部设备发送所生成的文本数据或语音数据。在需要用户进行确认的情形中,数据输出器270可向外部设备发送与需要用户进行确认的情形有关的信息。
图3是示出根据实施方式的电子设备利用数字助手识别用户的意见与第三方的意见不一致的情形并且对其作出响应的示例的图形。
参考图3的3-a,电子设备10可接收用户J的言辞。例如,电子设备10可接收用户J的言辞“请预约下午三点到B美发沙龙”310。电子设备10可将所接收的言辞转换成文本数据。
根据实施方式,电子设备10可利用数字助手基于文本数据生成路径规则。电子设备10可根据路径规则选择应用,并且可执行所选择的应用中所包括的操作。
例如,电子设备10可执行以下操作:利用数字助手生成并输出告知用户J的言辞已经被接收的通知。此外,电子设备10可执行以下操作:通过呼叫B美发沙龙进行预约。例如,电子设备10可利用数字助手生成语音数据“好,我知道了。B美发沙龙的电话号码是02-123-4567”312并且利用扬声器(未示出)将其输出。电子设备10可利用数字助手生成文本数据“好,我知道了。B美发沙龙的电话号码是02-123-4567”312,并且利用消息应用的执行屏幕输出所述文本数据。
在图3中,3-b示出电子设备10根据所生成的路径规则进行呼叫的示例。
根据实施方式,电子设备10可在图3的引用标号3-a中执行呼叫应用以利用数字助手向B美发沙龙进行电话呼叫,并且可通过响应于对应方的对话生成语音数据来生成路径规则以进行预约。
参考图3的3-b,电子设备10可通过执行呼叫应用开始与另一电子设备300进行呼叫。电子设备10可通过呼叫应用接收语音数据“这是B美发沙龙”314。电子设备10可响应于所接收的语音生成语音数据“我可以预约今天下午3点吗?”316,并且利用呼叫应用向其呼叫所联系的另一电子设备300发送语音数据。
电子设备10可通过呼叫应用接收语音数据“哦…下午3点的预约满了。下午4点怎么样?”318。
根据实施方式,电子设备10可识别出所接收的语音包括请求下午4点的内容,这不同于先前生成和发送的语音中所包括的预约时间下午3点。
基于由用户J请求的预约时间和从另一电子设备300接收的语音中所包括的预约时间不同,电子设备10可利用数字助手生成并输出请求用户J进行确认的通知。在该示例中,电子设备10可利用数字助手生成并向另一电子设备300发送语音“稍等”320,使得使用另一电子设备300的对应方可进行等候。
参考图3的3-c,电子设备10可利用数字助手生成请求用户进行确认的通知。
根据从另一电子设备300接收的语音数据,用于向用户J请求确认的通知可以是例如包括用于将预约时间下午3点更改成下午4点的内容的语音数据。根据各实施方式,电子设备10可利用文本数据生成请求用户进行确认的通知。在该示例中,请求用户进行确认的通知可为包括预约时间从下午3点更改到下午4点的文本数据322、用于准许预约时间更改的对象322a、用于拒绝预约时间的对象322b以及直接执行呼叫的对象322c。电子设备10可生成请求用户进行确认的通知并且在消息应用的执行屏幕上显示所述通知。
根据实施方式,当接收到准许预约时间更改的用户的语音“好,请更改”324时,电子设备10可利用数字助手生成进行预约时间更改的语音,并且利用呼叫应用向另一电子设备300发送所述语音。
这样,根据实施方式,当用户请求的一些内容不同于从另一电子设备接收的语音数据中所包括的一些内容时,电子设备10可输出请求用户进行确认的通知。
图4是示出根据实施方式的电子设备利用使用数字助手的用户的答复速度历史对与第三方的对话进行应答的示例的图形。
参考图4的4-a,电子设备10可接收用户J的言辞。例如,电子设备10可接收用户J的言辞“请预约下午3点到B美发沙龙”410。电子设备10可将所接收的言辞转换成文本数据。
根据实施方式,电子设备10可利用数字助手基于文本数据生成路径规则。电子设备10可根据路径规则选择应用,并且可执行所选择的应用中所包括的操作。
例如,电子设备10可执行以下操作:利用数字助手生成并输出引导用户J的言辞已经被接收的通知。此外,电子设备10可执行通过呼叫B美发沙龙进行预约的操作。例如,电子设备10可利用数字助手生成语音数据“好,我知道了。B美发沙龙的电话号码是02-123-4567”412,并且利用扬声器(未示出)输出所述语音数据。电子设备10可利用数字助手生成文本数据,“好,我知道了。B美发沙龙的电话号码是02-123-4567”412,并且利用消息应用的执行屏幕输出所述文本数据。
在图4中,4-b示出根据所生成的路径规则进行呼叫的示例。
根据实施方式,电子设备10可在图4的4-a中执行呼叫应用以利用数字助手呼叫B美发沙龙,可响应于对应方的对话生成语音数据,并且可生成路径规则以进行预约。
参考图4的4-b,电子设备10可通过执行呼叫应用开始与另一电子设备400进行呼叫。电子设备10可通过呼叫应用接收语音数据“这是B美发沙龙”414。电子设备10可响应于所接收的语音生成语音数据“我可以预约今天下午3点吗?”416,并且利用呼叫应用向呼叫所联系的另一电子设备400发送所述语音数据。
电子设备10可通过呼叫应用接收语音数据“好,您想怎样修剪您的头发?”418。
根据实施方式,电子设备10可识别由用户针对所接收的语音进行答复所需要的时间。
基于用户J针对语音数据“好,您想怎样修剪您的头发?”的答复已经花费多于过去的预定时间,电子设备10可利用数字助手生成并输出由用户J请求的通知。在该示例中,电子设备10可利用数字助手生成并向另一电子设备400发送语音“稍等”420,以引发使用另一电子设备的对应方进行等候。
参考图4的4-c,电子设备10可利用数字助手生成用于请求用户进行确认的通知。
例如,根据由另一电子设备400接收的语音数据,请求用户J进行确认的通知可为通知正在进行关于发型的询问的语音数据。根据各实施方式,电子设备10可利用文本数据生成用于请求用户进行确认的通知。在该示例中,用于请求用户进行确认的通知可为通知正在进行关于发型的询问的文本数据422。电子设备10可生成请求用户进行确认的通知并且在消息应用的执行屏幕上显示所述通知。
根据实施方式,当接收到用户用于确定发型的语音“运动发型”424时,电子设备10可生成告知发型的语音并且利用呼叫应用向另一电子设备400发送所述语音。
根据实施方式,电子设备10可使用数字助手利用与用户的过去答复速度有关的信息输出用于请求用户进行确认的通知。
图5是示出根据实施方式的电子设备利用数字助手确认新的信息并且对与第三方的对话进行应答的示例的图形。
参考图5的5-a,电子设备10可接收用户J的言辞。例如,电子设备10可接收用户J的言辞“如往常一样预约B美发沙龙”510。电子设备10可将所接收的言辞转换成文本数据。
根据实施方式,电子设备10可利用数字助手基于文本数据生成路径规则。电子设备10可根据路径规则选择应用,并且可执行所选择的应用中所包括的操作。
例如,电子设备10可执行以下操作:利用数字助手生成并输出引导用户J的言辞已经被接收的通知。此外,电子设备10可识别出用户J具有在下午3点预约B美发沙龙的X设计师的多条历史。此外,电子设备10可执行通过呼叫B美发沙龙进行预约的操作。
例如,利用数字助手,电子设备10可生成语音数据“好,我知道了。B美发沙龙的电话号码是02-123-4567”512,并且利用扬声器(未示出)输出所述语音数据。电子设备10可生成文本数据“好,我知道了。B美发沙龙的电话号码是02-123-4567”512,并且利用消息应用的执行屏幕输出所述语音数据。
在图5中,5-b示出电子设备10根据所生成的路径规则进行呼叫的示例。
根据实施方式,电子设备10可在图5的5-a中利用数字助手执行呼叫应用以呼叫B美发沙龙,响应于对应方的对话生成语音数据,并且生成路径规则以进行预约。
参考图5的5-b,电子设备10可通过执行呼叫应用开始与另一电子设备500进行呼叫。电子设备10可通过呼叫应用接收语音数据“这是B美发沙龙”514。电子设备10可响应于所接收的语音生成语音数据“我可以预约今天下午3点吗?”516,并且利用呼叫应用向其呼叫所联系的另一电子设备500发送所述语音数据。
电子设备10可通过呼叫应用从另一电子设备500接收语音数据“您选择哪位设计师?”518。
根据实施方式,电子设备10可利用数字助手识别所接收的语音数据是否具有新的内容。
基于针对语音数据“您选择哪位设计师?”518不存在所获得的历史,电子设备10可利用数字助手生成并输出向用户J请求确认的通知。在该示例中,电子设备10可利用数字助手生成并向另一电子设备500发送内容为“稍等”520的语音,以引发使用另一电子设备500的对应方进行等候。
参考图5的5-c,电子设备10可利用数字助手生成请求用户进行确认的通知。
例如,向用户请求确认的通知可为指示基于从另一电子设备500接收的语音数据正在向设计师进行询问的语音数据。根据各实施方式,电子设备10可利用文本数据生成请求用户确认的通知。在该情况中,请求用户确认的通知可为指示设计师正在进行询问的文本数据522、用于选择设计师的对象522a以及用于直接进行呼叫的对象522b。电子设备10可生成请求用户确认的通知并且在消息应用的执行屏幕上显示所述通知。
根据实施方式,当接收到用户J的用于请求最终确认设计师的语音“X设计师”524的时,电子设备10可利用数字助手生成用于请求最终确认设计师的语音,并且利用呼叫应用向另一电子设备500发送所述语音。
根据实施方式,当利用数字助手获得尚未存在于对话历史中的新内容时,电子设备10可输出用于请求用户确认的通知。
图6是示出根据实施方式的电子设备利用数字助手概括并显示对话内容的示例的图形。
根据实施方式,电子设备10可通过使用数字助手与另一电子设备发送和接收的文本数据中所包括的内容来生成概要文本数据并且将其提供给用户。例如,当用户未确认由数字助手和另一电子设备发送和接收的文本数据的至少一些内容时,电子设备10可生成概要文本数据并且将其提供给用户。然而,电子设备10利用数字助手提供概要文本数据的情况不限于此。
根据实施方式,概要文本数据可包括使用另一电子设备的对应方的名称。此外,概要文本数据可包括需要用户确认的内容。例如,概要数据可包括以下至少之一:需要对用户指示进行确认的情况,从另一设备接收的文本数据中包括建议的情况,接收到与用户在从其他电子设备接收的言辞上花费预定时间之后进行的答复的情况相同的文本数据的情况,以及从另一电子设备接收的文本数据或语音数据和先前存储在电子设备中的文本数据或语音数据之间的相似度小于或等于预定值的情况。
参考图6,电子设备10可利用数字助手生成概要文本数据“在与K进行的对话期间接收到下午4点观看A电影的建议”610,并且在消息应用的执行屏幕110上显示所述数据。在该情况中,电子设备10可利用数字助手显示展示与另一电子设备发送和接收的文本数据中所包括的全部内容的整个视图对象610a。
根据实施方式,电子设备10可利用数字助手生成并显示请求用户进行确认的文本数据。
参考图6,电子设备10可利用数字助手生成文本数据“我可以预约下午4点吗?”612、接收准许的对象612a、接收拒绝的对象612b以及接收用户的直接输入进程的对象612c,并且可在消息应用的执行屏幕110上将其显示。在该示例中,电子设备10可显示用于下午4点的约会的文本数据以及指示能够接收用户的输入的所选择的对象尚未被发送至另一电子设备的指示符612d。
根据示例性实施方式,电子设备10可向另一电子设备发送用户直接输入的“好,一会儿见”614,并且在消息应用的执行屏幕110上将其显示。例如,电子设备10可响应于选择接收直接输入进程的对象612c的用户输入,显示用于输入文本的弹窗。电子设备10可向另一电子设备发送通过用于输入文本的弹窗所输入的文本数据,并且可在消息应用的执行屏幕110上显示所述文本数据。在该情况中,电子设备10还可显示指示已经通过用户的直接输入生成“好,一会儿见”614的指示符614a。
图7是示出根据各实施方式的电子设备利用数字助手概括并显示对话内容的示例的图形。
根据实施方式,电子设备10可以是AI扬声器。电子设备10可使用数字助手利用已经从另一电子设备接收或已经发送至另一电子设备的语音数据生成概要语音数据,并且将其提供给用户。
根据实施方式,概要语音数据可包括使用另一电子设备的对应方的名称。此外,概要语音数据可包括需要用户确认的内容。例如,概要语音数据可包括以下至少之一:需要对用户指示进行确认的情况,从另一设备接收的文本数据中包括建议的情况,接收到与用户在从其他电子设备接收的言辞上花费预定时间之后进行的答复的情况相同的语音数据的情况,以及从另一电子设备接收的文本数据或语音数据和先前存储在电子设备中的文本数据或语音数据之间的相似度小于或等于预定值的情况。
参考图7,电子设备10可利用数字助手生成并输出概要语音数据“你愿意如K所建议的定下下午4点的约会吗?”710。电子设备10可接收用户言辞“告诉我更多关于预约的信息”712。电子设备10可基于用户言辞利用数字助手输出与另一电子设备发送和接收的整个语音数据714。
根据实施方式,电子设备10可利用数字助手概述已经与另一电子设备发送或接收的语音数据或文本数据的至少一些内容并将其提供给用户,并且可引导用户在节约时间的情况下掌握主要内容。
图8是示出根据实施方式的利用数字助手在等候用户的确认期间电子设备引导另一电子设备的用户的示例的图形。
如上所述,参考图3的3-a,电子设备10可执行呼叫应用以利用数字助手呼叫B美发沙龙,并且可通过响应于对应方的对话生成语音数据而生成路径规则以继续进行预约。
参考图8的8-a,电子设备10可在与另一电子设备800的呼叫开始时利用数字助手生成指示正在进行呼叫的语音数据,并且向另一电子设备800发送所述语音数据。例如,电子设备10可生成语音数据“您好,这是代表J的数字助手”810并且向另一电子设备800发送所述语音数据。
电子设备10可生成语音数据“我可以预约今天下午3点吗?”812并且利用呼叫应用向另一电子设备发送所述语音数据。
电子设备10可从另一电子设备800接收语音数据“下午3点的预约满了,但是下午4点可以”814。
根据实施方式,电子设备10可利用数字助手识别出所接收的语音中包括的请求预约时间下午4点(不同于预先生成的语音中所包括的下午3点)作为预约时间的内容。电子设备10可基于由用户请求的预约时间与从另一电子设备接收的语音中所包括的预约时间之间的差异,利用数字助手生成并输出请求来自用户的确认的通知。
电子设备10可利用数字助手生成请求另一电子设备800等候的语音数据并且将其发送。例如,电子设备10可利用数字助手生成并发送语音数据“稍等。我正在与J确认”816。
根据各实施方式,如果接收到用户的确认的时间长于预定时间(例如,2至3分钟),则电子设备10可利用数字助手生成并发送回叫另一电子设备800d语音数据。例如,电子设备10可利用数字助手生成并发送语音数据“抱歉。我将在确认后再次呼叫您”818。
参考图8的8-b,电子设备10可生成语音数据“我可以预约今天下午3点吗?”820并且利用呼叫应用向另一电子设备800发送语音消息。
电子设备10可通过呼叫应用从另一电子设备800接收语音数据“下午3点的预约满了,但是下午4点可以”822。
根据实施方式,电子设备10可识别出所接收的语音中包括请求预约时间下午4点的内容(其不同于作为先前生成并发送的语音中所包括的预约时间而被包括的下午3点)。基于用户请求的预约时间与从另一电子设备800接收的语音中所包括的预约时间之间的差异,电子设备10可利用数字助手生成并输出向用户请求确认的通知。
此外,电子设备10可利用数字助手生成并向另一电子设备800发送语音数据以检查是否存在针对不同于用户所请求的内容的其他内容的请求。例如,电子设备10可生成语音数据“稍等,我将与J核实。还有其他需要确认的事吗?”824并且向另一电子设备发送语音数据。
根据实施方式,电子设备10还可根据用户对请求用户进行确认的通知进行响应所需要的时间,向另一电子设备发送语音数据。
图9是示出根据实施方式的执行数字助手的示例性过程的框图。
参考图9,服务器(例如,图2的服务器20)或电子设备10可包括自动语音识别ASR模块(例如,包括处理电路和/或可执行程序元件)910、自然语言理解NLU模块(例如,包括处理电路和/或可执行程序元件)920、路径规划器模块(例如,包括处理电路和/或可执行程序元件)930、对话管理器DM模块(例如,包括处理电路和/或可执行程序元件)940、自然语言生成器NLG模块(例如,包括处理电路和/或可执行程序元件)950和/或文本转语音TTS模块(例如,包括处理电路和/或可执行程序元件)960。
根据实施方式,电子设备10可将多个上述模块存储在存储器(例如,图2的存储器230)中。服务器20可将多个上述模块存储在数据处理器(例如,图2的数据处理器260)中。
根据实施方式,ASR模块910可包括各种处理电路和/或可执行程序元件并且可将用户输入转换成文本数据。
根据实施方式,ASR模块910可将用户输入转换成文本数据。例如,ASR模块910可包括语音识别模块。语音识别模块可包括声学模型和语言模型。例如,声学模型可包括与发声相关的信息,且语言模型可包括与单元音素信息有关的信息和单元音素信息的组合。语音识别模块可利用与发声相关的信息和与单元音素信息有关的信息将用户言辞转换成文本数据。与声学模型和语言模型有关的信息例如可存储在自动语音识别数据库(ASR DB)911中。
作为一实施方式,NLU模块可包括各种处理电路和/或可执行程序元件,并且可通过执行句法分析或语义分析识别用户的意图。语法分析可将用户输入划分成语法单元(例如,单词、短语、词素等),并且可掌握所划分的单元可能具有哪些语法元素。可利用语义匹配、规则匹配、公式匹配等来执行语义分析。因此,NLU模块可通过用户输入获取域(domain)、意图或表述意图的参数。
作为另一实施方式,NLU模块920可利用划分成域、意图和用于掌握意图的参数(或时隙)的匹配规则来确定用户意图和参数。例如,一个域(例如,警报)可包括多个意图(例如,警报设置、警报取消等),一个意图可包括多个参数(例如,时间、重复时间、报警声音等)。多项规则例如可包括一个或多个强制性元素参数。匹配规则可存储在自然语言理解数据库(NLU DB)921中。
作为又一实施方式,NLU模块920可利用诸如词素或短语的语言学特征(例如,语法元素)掌握从用户输入提取的词语的含义,并且可通过将所掌握的含义与域和意图进行匹配来确定用户意图。例如,NLU模块920可通过计算在每个域和意图中包含多少个从用户输入提取的词语来确定用户的意图。
根据示例性实施方式,NLU模块920可利用成为理解意图的基础的词语来确定用户输入的参数。根据示例性实施方式,NLU模块920可利用自然语言识别数据库921来确定用户的意图,其中,用于掌握用户输入的意图的语言学特征存储在自然语言识别数据库921中。
作为又一实施方式,NLU模块920可利用个人语言模型(PLM)确定用户的意图。例如,NLU模块920可利用个人信息(例如,联系人列表、音乐列表)确定用户的意图。个人语言模型例如可存储在自然语言识别数据库921中。根据实施方式,不仅NLU模块920而且ASR模块910可利用存储在自然语言识别数据库921中的个人语言模型识别用户的语音。
作为一实施方式,NLU模块920可基于用户输入的意图和参数生成路径规则。例如,NLU模块920可基于用户输入的意图选择待执行的应用,并且确定待在所选择的应用中执行的动作。NLU模块920可通过确定与所确定的动作对应的参数来生成路径规则。根据示例性实施方式,由NLU模块生成的路径规则可包括待执行的应用、待在应用中执行的动作(例如,至少一个状态)以及与用于执行动作的参数有关的信息。
作为另一实施方式,NLU模块920可基于用户输入的意图和参数生成一项路径规则或多项路径规则。例如,NLU模块920可从路径规划器模块930接收与第一电子设备10对应的路径规则集,并且通过将用户输入的意图和参数映射到所接收的路径规则集来确定路径规则。
作为又一实施方式,NLU模块920可通过基于用户输入的意图和参数确定待执行的应用、待在应用中执行的动作和用于执行动作的参数,来生成一项或多项路径规则。例如,NLU模块920可根据语音中所包括的意图,通过将待执行的应用或待通过应用执行的动作布置到本体模型或图解模型来生成路径规则。例如,所生成的路径规则可通过路径规划器模块930存储在路径规则数据库PR DB 931中。所生成的路径规则可添加到路径规则数据库931的路径规则集。
作为又一实施方式,NLU模块920可从多个所生成的路径规则之中选择至少一项路径规则。例如,NLU模块可从多项路径规则之中选择最佳路径规则。例如,当基于用户言辞仅指定一些动作时,NLU模块920可选择多项路径规则。NLU模块920可通过用户的附加输入从多项路径规则之中确定一项路径规则。
根据实施方式,路径规划器模块930可包括各种处理电路和/或可执行程序元件,并且可从多项路径规则之中选择至少一项路径规则。
根据实施方式,路径规划器模块930可向NLU模块920发送包括多项路径规则的路径规则集。路径规则集的多项路径规则可以以表格的形式存储在连接至路径规划器模块930的路径规则数据库931中。存储在路径规则数据库931中的表格可例如通过多个域或多个版本的域的形式来存储。
根据实施方式,路径规划器模块930可从路径规则集之中选择一项路径规则或多项路径规则并且将其发送至NLU模块920。例如,路径规划器模块930可将与用户终端对应的用户的意图和参数与路径规则集进行匹配,选择一项路径规则或多项路径规则,并且将其发送至NLU模块920。
根据实施方式,路径规划器模块930可利用语音中所包括的意图和参数生成一项路径规则或多项路径规则。例如,路径规划器模块930可通过基于语音中所包括的意图和参数确定待执行的应用和待在应用中执行的操作来生成一项路径规则或多项路径规则。根据实施方式,路径规划器模块930可将所生成的路径规则存储在路径规则数据库931中。
根据实施方式,路径规划器模块930可将在NLU模块920中生成的路径规则存储在路径规则数据库931中。所生成的路径规则可添加至存储在路径规则数据库931中的路径规则集。
根据实施方式,存储在路径规则数据库931中的表格可包括多项路径规则或多个路径规则集。多项路径规则或多个路径规则集可反映用于执行每个路径规则的装置的种类、版本、类型或特征。
根据示例性实施方式,对话管理器DM模块940可包括各种处理电路和/或可执行程序元件,并且可确定通过NLU模块920确定的语音中所包括的意图是否清楚。例如,对话管理器模块940可基于参数的信息是否充分来确定语音中所包括的意图是否清楚。对话管理器模块940可确定在NLU模块920中识别的参数是否足以执行任务。根据实施方式,当语音中所包括的意图不清楚时,对话管理器模块940可执行用于向用户请求必要信息的反馈。例如,对话管理器模块940可执行请求与用于确定用户的意图的参数有关的信息的反馈。
根据示例性实施方式,自然语言生成器NLG模块950可包括各种处理电路和/或可执行程序元件,并且可将指定的信息改变成文本形式。改变成文本的形式的信息可呈自然语言语音的形式。指定信息可以是例如与添加输入有关的信息、用于引导完成与用户输入对应的操作的信息、或者用于引导用户的附加输入的信息(例如,针对用户输入的反馈信息)。改变成文本的形式的信息可显示在显示器上或者可改变成语音的形式。
根据实施方式,TTS模块960可包括各种处理电路和/或可执行程序元件,并且可将文本类型信息改变成语音类型信息。TTS模块960可接收来自自然语言生成器模块950的文本类型信息,并且可将文本格式信息改变成语音格式信息。电子设备10可利用扬声器等输出经改变的语音类型信息。
根据实施方式,NLU模块920、路径规划器模块930和DM模块940可实现为一个模块。例如,NLU模块920、路径规划器模块930和DM模块940可实现为用于确定用户的意图和参数的一个模块,并且可生成与所确定的用户意图和参数对应的答复(例如,路径规则)。
如此一来,电子设备10或服务器可利用上述模块来实现数字助手。
图10是示出可用于通过数字助手确定生成用户的通知的重要性级别的示例性学习模型的图形。
根据示例性实施方式,NLU模块(例如,图9的NLU模块920)可执行至少一个学习模型的学习。例如,NLU模块920可包括对话重要性确定模型(例如,包括处理电路和/或可执行程序元件)1010。对话重要性确定模型1010可包括以下中的至少之一:例如,用户指示确认模型(例如,包括处理电路和/或可执行程序元件)1021、答复类型确认模型(例如,包括处理电路和/或可执行程序元件)1022、答复时间确认模型(例如,包括处理电路和/或可执行程序元件)1023以及新内容确认模型(例如,包括处理电路和/或可执行程序元件)1024。
NLU模块920中所包括的用户指示确认模型1021、答复类型确认模型1022、答复时间确认模型1023和新内容确认模型1024可根据识别模型的可适用领域、学习目的或装置的计算机性能等来建立。NLU模块920中所包括的用户指示确认模型1021、答复类型确认模型1022、答复时间确认模型1023和新内容确认模型1024可以是例如基于神经网络的模型。NLU模块920中所包括的用户指示确认模型1021、答复类型确认模型1022、答复时间确认模型1023和新内容确认模型1024可以是例如神经网络模型或从神经网络模型发展而来的深度学习模型。
NLU模块920中的至少一些可制造成至少一个硬件芯片的形式,并且可安装在电子设备上。例如,NLU模块920中的至少一些可制造成用于AI的专用硬件芯片形式,或者可制造为常规的通用处理器(例如,中央处理单元(CPU)或应用处理器)或仅图形处理器(例如,图形处理单元(GPU))的一部分,并且可安装在上述各种电子设备上。
根据实施方式,用于AI的专用硬件芯片可例如是概率运算中专用的专用处理器。由于具有比通用处理器更高的并行处理性能,用于AI的专用硬件芯片可迅速地处理AI领域的操作,诸如机器学习。
NLU模块920中的至少一部分可安装在一个装置中,或者可分别安装在单独的装置上。例如,NLU模块920中的至少一些可包括在电子设备10中,并且NLU模块920中的剩余部分可包括在服务器中。可替代地,NLU模块920中的至少一些可包括在第一服务器中,并且NLU模块920中的其他可包括在不同于第一服务器的第二服务器中。
NLU模块920中的至少一些可实现为软件模块。当NLU模块920中的至少一些实现为软件模块(或包括指令的程序模块)时,软件模块可存储在计算机可读非暂时性可读记录介质中。在该情况中,至少一个软件模块可通过操作系统(OS)或通过预定应用来提供。至少一个软件模块中的一些可通过操作系统(OS)来提供,且至少一个软件模块中的其他软件模块可通过预定应用来提供。
图11是示出根据实施方式的用户指示确认模型的示例性功能的图形。
参考图11,电子设备10可训练成具有评估由电子设备10的用户生成的语音数据或文本数据中所包括的内容是否与从另一电子设备接收的语音数据或文本数据中所包括的内容一致的标准。电子设备10可训练成具有样的标准,该标准涉及:用户指示确认模型1021使用哪些学习数据来获得用于评估由用户生成的语音数据或文本数据中所包括的内容与从另一电子设备接收的语音数据或文本数据中所包括的内容;或如何评估由使用学习数据的用户生成的语音数据或文本数据中所包括的内容与从另一电子设备接收的语音数据或文本数据中所包括的内容之间的一致性。
根据各实施方式,电子设备10可利用第一语句1110、不同于第一语句1110的第二语句1120和与第一语句和第二语句之间的差异有关的信息1130作为学习数据来训练用户指示确认模型1021。与第一语句和第二语句之间的差异有关的信息1130例如可表示第一语句1110中包括而第二语句1120中不包括的内容或者第一语句1110的内容与第二语句1120的内容相反的情况等。例如,学习数据可为第一语句“我们下午3点在地点A见面吧”、第二语句“我们下午4点在地点B见面吧”以及与第一语句和第二语句之间的差异有关的信息(诸如下午3点、下午4点、地点A、地点B等)。
根据各实施方式,电子设备10可基于学习结果评估由电子设备10的用户生成的语音数据或文本数据中所包括的内容是否与从另一电子设备接收的语音数据或文本数据中所包括的内容一致。
根据各实施方式,电子设备10可使用与由电子设备10的用户生成的语音数据或文本数据是否推测性地与从另一电子设备接收的语音数据或文本数据一致有关的用户答复(或反馈)来更新用户指示确认模型1021。
图12是示出根据实施方式的答复类型确认模型的示例性功能的图形。
参考图12,电子设备10经过学习,使得答复类型确认模型1022具有用于评估输入语句是否是用户请求特定决策的建议类型语句的标准。电子设备10可训练成具有这样的标准,该标准涉及:使用哪些学习数据来获取标准以使答复类型确认模型1022能评估输入语句是否是建议类型语句;或者如何利用学习数据评估输入语句是否是建议类型语句。
根据各实施方式,电子设备10可利用语句1210和建议类型语句的语句结束形式1220作为训练数据来训练答复类型确认模型1022。建议类型语句的语句结束形式1220例如是“How about~?(~怎么样?)”、“Shall we~?(让我们~吧?)”、“How do you think of~?(你认为~如何?)”、“What do you think of~?(你觉得~如何?)”等。
根据各实施方式,电子设备10中所包括的答复类型确认模型1022可基于学习结果评估从另一电子设备接收的语音数据或文本数据是否是建议类型语句。例如,答复类型确认模型1022可推导评估结果作为得分。
根据各实施方式,电子设备10可使用与关于从另一电子设备接收的语音数据或语句数据是否是建议类型语句的评估结果有关的用户答复来更新答复类型确认模型1022。
图13是示出根据实施方式的答复时间确认模型的示例性功能的图形。
参考图13,电子设备10可训练成使得答复时间确认模型1023具有用于评估用户对输入语句进行答复所需时间的标准。电子设备10可训练成具有这样的标准,该标准涉及:答复时间确认模型1023使用什么学习数据来获得用于评估用户对输入语句进行答复所需时间的标准;以及如何利用学习数据来评估用户针对输入语句进行答复所需时间。
根据各实施方式,电子设备10可利用从另一电子设备接收的语句1310作为学习数据以及利用答复所接收的语句所需要的时间1320来训练答复时间确认模型1023。根据各实施方式,电子设备10可使用用户响应于从另一电子设备接收的、作为训练数据的语句1310所应答的语句1330作为训练数据。
根据各实施方式,电子设备10中所包括的答复时间确认模型1023可基于学习结果评估与用户针对从另一电子设备接收的语音数据或文本数据进行应答预期的所需时间。例如,答复时间确认模型1023可推导估计结果作为得分。
根据各实施方式,电子设备10可使用与评估用户针对从另一电子设备接收的语音数据或文本数据进行应答所需要的估计时间的结果有关的用户答复来更新答复时间确认模型1023。
图14是示出根据实施方式的答复时间确认模型的示例性功能的图形。
参考图14,电子设备10可进行学习使得新内容确认模型1024具有用于评估在与对应方的对话中输入语句的内容是否不常见的标准。电子设备10可利用学习数据训练成使得新内容确认模型1024获得用于评估在与对应方的对话中输入语句的内容是否不熟悉以及如何评估在与对应方的对话中输入语句的内容是否为不熟悉内容的标准。
根据各实施方式,电子设备10可利用与第一对应方的对话数据1410、与第二对应方的对话数据1420等作为学习数据来训练新内容确认模型1024。
根据各实施方式,电子设备10中所包括的新内容确认模型1024可基于学习结果评估在与对应方的关系中从另一电子设备接收的语音数据或文本数据中所包括的内容是否为不熟悉内容。
根据各实施方式,电子设备10可使用对于评估在与对应方的关系中从另一电子设备接收的语音数据或文本数据中所包括的内容是否为不熟悉内容的结果的用户答复来更新新内容确认模型1024。
图15是示出根据实施方式的电子设备利用数字助手与第三方发送和接收文本数据或语音数据的示例的流程图。
参考操作1510,电子设备10可响应于至少一个事件的发生,执行与另一电子设备发送和接收文本数据或语音数据中至少之一的应用。
至少一个事件例如可表示来自用户的输入被接收以执行用于与另一电子设备发送和接收文本数据或语音数据中至少之一的应用的情况。可替代地,至少一个事件例如可表示从另一电子设备接收文本数据或语音数据的情形。
参考操作1520,当从另一电子设备接收到文本数据或语音数据中的至少一者时,电子设备10可利用数字助手基于用户言辞的特征生成文本数据或语音数据中的至少一者,并且可利用应用输出所述数据。
例如,电子设备10可利用呼叫日志、用户的文本输入历史中的至少一者获取用户言辞的特征,并且利用所获取的用户言辞的特征生成反映用户言辞的特征的文本数据。
参考操作1530,在基于用户言辞的特征生成文本数据或语音数据中的至少一者的情况中,电子设备10可利用数字助手识别需要用户进行确认的情形。
需要用户进行确认的情形例如可以是需要用户指示确认的情况。换言之,由用户生成的文本数据或语音数据中所包括的一些内容以及从另一电子设备接收的文本数据或语音数据中的一些内容可能不一致。
需要用户进行确认的情形可以是例如应由数字助手生成的文本数据或语音数据需要确定是否接受建议的情形。即,当从另一电子设备接收的文本数据或语音数据中包括建议时,可能需要谨慎的答复,且电子设备10可将该情形识别为需要用户进行确认。
需要用户进行确认的情形可以是例如需要确认用户对言辞进行应答的时间的情形。换言之,如果用户答复对应方的语音的时间长于预设时间(例如,用户的平均应答占用时间),则其可为需要谨慎的答复的情形。因此,电子设备10可将该情形识别为需要用户进行确认。
需要用户进行确认的情形可以是例如从另一电子设备接收的文本数据或语音数据与预存在电子设备中的文本数据或语音数据之间的相似度小于或等于预定值。电子设备10可处于需要谨慎的答复的情形,电子设备10可将该情形识别为要求用户的确认。
参考操作1540,电子设备10可在需要用户进行确认的情形中,利用数字助手生成请求用户确认的通知,并且可利用应用输出所述通知。
图16是示出根据实施方式的电子设备和服务器利用数字助手与第三方发送和接收文本数据或语音数据的示例的流程图。
参考操作1610,电子设备10可响应于至少一个事件的发生,执行与另一电子设备发送或接收文本数据或语音数据中的至少一者的应用。
参考操作1620,在从另一电子设备接收文本数据或语音数据中的至少一者之后,电子设备10可向服务器20发送所述数据。
参考操作1630,在从电子设备10接收文本数据或语音数据中的至少一者之后,服务器20可基于用户言辞的特征生成文本数据或语音数据中的至少一者并且向电子设备10发送所述数据。
参考操作1640,在基于用户言辞的特征生成文本数据或语音数据中的至少一者的情况中,服务器20可利用数字助手识别需要用户进行确认的情形。
参考操作1650,服务器20可在需要用户进行确认的情形中,利用数字助手生成用于请求用户进行确认的通知,并且向电子设备10发送所述通知。
参考操作1660,电子设备10可利用应用输出所接收的通知。
图17是根据各实施方式的处于网络环境1700中的电子设备1701的框图。电子设备1701可包括图1的电子设备10。参考图17,在网络环境1700中,电子设备1701可通过第一网络1798(例如,近距离无线通信网络)与电子设备1702通信或者通过第二网络1799(例如,广域网)与电子设备1704或服务器1708通信。根据示例性实施方式,电子设备1701可通过服务器1708与电子设备1704通信。根据示例性实施方式,电子设备1701可包括处理器1720、存储器1730、输入设备1750、声音输出设备1755、显示设备1760、音频模块1770、传感器模块1776、接口1777、触觉模块1779、相机模块1780、电力管理模块1788、电池1789、通信模块1790(例如,收发器)、用户识别模块1796或天线模块1797。在一些实施方式中,可从电子设备1701省略这些组件中的至少一个(例如,显示设备1760或相机模块1780),或者可添加一个或多个其他组件。在一些实施方式中,这些组件中的一些可实现为单个集成电路。例如,传感器模块1776(例如,指纹传感器、虹膜传感器或照度传感器)可实现为嵌入显示设备1760(例如,显示器)中。
处理器1720可通过执行软件(例如,程序1740)控制连接至处理器1720的电子设备1701的至少一个另外的组件(例如,硬件或软件组件),并且可执行各种数据处理或操作。根据实施方式,作为数据处理或操作的至少一部分,处理器1720可将从另一组件(例如,传感器模块1776或通信模块1790)接收的命令或数据加载到易失性存储器1732,可处理存储在易失性存储器1732中的命令或数据,并且可将结果数据存储到非易失性存储器1734中。根据示例性实施方式,处理器1720可包括可共同或独立操作的主处理器1721(例如,中央处理单元或应用处理器)和辅助处理器1723(例如,图形处理单元、图像信号处理器、传感器中心处理器或通信处理器)。另外或可替代地,辅助处理器1723可使用比主处理器1721更低的功率,或者可设定成专用于指定的功能。辅助处理器1723可独立于主处理器1721来实现或者可实现为主处理器1721的一部分。
辅助处理器1723可例如在主处理器1721处于禁用状态(例如,睡眠)时代替主处理器1721或者在主处理器1721处于启用状态(例如,执行应用)时与主处理器1721一起控制与电子设备1701的组件之中的至少一个组件(例如,显示设备1760、传感器模块1776或通信模块1790)相关的功能或状态的一部分。根据示例性实施方式,辅助处理器1723(例如,图像信号处理器或通信处理器)可实现为功能上相关的其他组件(例如,相机模块1780或通信模块1790)的一部分。
存储器1730可存储电子设备1701的至少一个组件(例如,处理器1720或传感器模块1776)所使用的各种数据。数据例如可包括软件(例如,程序1740)以及与软件指令相关的输入数据或输出数据。存储器1730可包括易失性存储器1732或非易失性存储器1734。
程序1740可作为软件存储在存储器1730中,并且例如可包括操作系统1742、中间件1744或应用1746。
输入设备1750可从电子设备1701的外部(例如,用户)接收用于电子设备1701的组件(例如,处理器1720)的命令或数据。输入设备1750例如可包括麦克风、鼠标或键盘。
声音输出设备1755可向电子设备1701的外部输出声音信号。声音输出设备1755例如可包括扬声器或接收器。扬声器可用于通用目的,诸如多媒体回放或录音回放,且接收器可用于接收传入的呼叫。根据示例性实施方式,接收器可独立于扬声器实现或者可实现为扬声器的一部分。
显示设备1760可视觉上地向电子设备1701的外部(例如,用户)提供信息。显示设备1760例如可包括显示器、全息图设备、投影仪或用于控制设备的控制电路。根据实施方式,显示设备1760可包括设置成用于检测触摸或感应电路(例如,压力传感器)的触摸电路,其中触摸或感应电路设置成测量通过触摸生成的功率的强度。
音频模块1770可将声音转换成电信号或者将电信号转换成声音。根据示例性实施方式,音频模块1770可通过输入设备1750获取声音,或者可通过声音输出设备1755或作为直接地或无线地连接至电子设备1701的外部电子设备(例如,电子设备1702)(例如,扬声器或耳机)输出声音。
传感器模块1776可检测电子设备1701的操作状态(例如,功率或温度)或外部环境状态(例如,用户状态),并且可生成与所检测的状态对应的电信号或数据值。根据实施方式,传感器模块1776例如可包括手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外线(IR)传感器、生物传感器、温度传感器、湿度传感器或照度传感器。
接口1777可支持可由待直接或无线连接至外部电子设备(例如,电子设备1702)的电子设备1701使用的一个或多个指定通信协议。根据实施方式,接口1777例如可包括高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。
连接端子1778可包括连接器,其中电子设备1701可通过该连接器物理上连接至外部电子设备(例如,电子设备1702)。根据实施方式,连接端子1778例如可包括HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如,耳机连接器)。
触觉模块1779可将电信号转换成用户可通过触觉或运动知觉识别的机械刺激(例如,振动或动作)或电刺激。根据实施方式,触觉模块1779例如可包括电机、压电元件或电刺激设备。
相机模块1780可拍摄静态图像或动态图像。根据实施方式,相机模块1780可包括一个或多个镜头、图像传感器、图像信号处理器或闪光灯。
电力管理模块1788可管理供应至电子设备1701的功率。根据实施方式,电力管理模块1788可实现为例如电源管理集成电路(PMIC)的至少一部分。
电池1789可向电子设备1701的至少一个组件供应电力。根据实施方式,电池1789例如可包括不可再充电的一次电池、可再充电的二次电池或燃料电池。
通信模块1790可支持电子设备1701和外部电子设备(例如,电子设备1702、电子设备1704或服务器1708)之间的直接(例如,有线)通信信道或无线通信信道的建立以及通过所建立的通信信道实现的通信。通信模块1790可包括独立于处理器1720(例如,应用处理器)操作的一个或多个通信处理器,并且可支持直接(例如,有线)通信或无线通信。根据实施方式,通信模块1790可包括无线通信模块1792(例如,蜂窝通信模块、近场无线通信模块或全球卫星导航系统(GNSS)通信模块)或有线通信模块(例如,局域网(LAN)通信模块或电力线通信模块)。这些通信模块之中的相应通信模块可通过第一网络1798(例如,蓝牙、WiFi直连或诸如红外数据协会(IrDA)的近场通信网络)或第二网络1799(例如,电信网络(诸如蜂窝网络)、互联网或计算机网络(例如,LAN或WAN))与外部电子设备通信。这些类型的通信模块可并入一个组件(例如,单个芯片)中,或者可利用彼此独立的多个组件(例如,多个芯片)来实现。无线通信模块1792可利用存储在用户识别模块1796中的用户信息(例如,国际移动用户识别码(IMSI))确认和认证诸如第一网络1798或第二网络1799的通信网络中的电子设备1701。
天线模块1797可向外部设备(例如,外部电子设备)发送信号或电力或者可从外部接收信号或电力。根据示例性实施方式,天线模块1797可包括一个或多个天线,其中该一个或多个天线之中、适于在诸如第一网络1798或第二网络1799的通信网络中使用的通信方法的至少一个天线例如可被通信模块1790选择。可通过所选择的至少一个天线在通信模块1790和外部电子设备之间发送或接收信号或电力。
组件中的至少一部分可在外围设备之间通过通信方法(例如,总线、通用输入和输出(GPIO)、串行外围接口(SPI)或移动工业处理器接口(MIPI))互连,并且可彼此交换信号(例如,命令或数据)。
根据示例性实施方式,可通过连接至第二网络1799的服务器1708在电子设备1701和外部电子设备1704之间发送或接收命令或数据。电子设备1702和1704中的每一个可为与电子设备1701类型相同的或不同的设备。例如,当电子设备1701是用于个体的个人电子设备(诸如智能电话)时,外部电子设备1702和1704可以是用于多个人的移动式机器人TV或固定式公用电子设备(诸如,冰箱)。根据实施方式,可通过外部电子设备1702、1704或1708之中的一个或多个外部设备来执行由电子设备1701执行的操作中的全部或一部分。例如,当电子设备1701必须自动地或者响应于来自用户或另一设备的请求而执行功能或服务时,电子设备1701可请求一个或多个外部电子设备执行功能或服务中的至少一部分以代替自身执行功能或服务,或者可除了自身执行功能或服务之外另外地请求一个或多个外部电子设备执行功能或服务中的至少一部分。已经接收请求的一个或多个外部电子设备可执行所请求的功能或服务中的至少一部分或与请求关联的附加功能或服务,并且可向电子设备1701发送执行的结果。电子设备1701可照原样或另外地处理结果,并且可提供所述结果作为对请求的应答的至少一部分。出于该目的,例如,可使用云计算、分布式计算或主机-服务器计算技术。
例如,当电子设备1701接收用户语音并且向外部电子设备1702和1704发送所述语音时,外部电子设备1702和1704可通过分析所接收的语音和生成路径规则来执行与用户的语音对应的功能。
本公开的各实施方式可利用包括存储在机器(例如,电子设备1701)可读的存储介质(例如,内部存储器1736或外部存储器1738)中的一个或多个指令的软件(例如,程序1740)来实现。例如,设备(例如,电子设备1701)的处理器(例如,处理器1720)可调用存储在存储介质中的一个或多个指令之中的至少一个指令并且执行所述指令。这使得设备能够被操作成根据所调用的至少一个指令执行至少一个功能。指令可包括由编译器生成的代码或者解释器可运行的代码。机器可读的存储介质可设置成作为有形设备的非暂时性存储介质的形式,并且可以不包括信号(例如,电磁波)。该术语不区分永久地或暂时地存储在存储介质中的数据。
根据实施方式,根据本文公开的各实施方式的方法可设置成计算机程序产品。计算机程序产品可作为商品在卖家和买家之间进行交换。计算机程序产品可以以机器可读存储介质(例如,光盘只读存储器(CD-ROM))的形式进行分布,或者通过直接地处于两个用户设备(例如,智能电话)之间的应用存储器(例如PlayStoreTM)在线地进行分布。对于在线分布而言,计算机程序产品的至少一部分可暂时地或至少暂时地存储在诸如制造商的服务器、应用存储器的服务器或中继服务器的存储器的存储介质中。
根据各实施方式的元件(例如,模块或程序)中的每一个可包括单个实体或多个实体,并且上述子元件中的一些子元件可省略。各实施方式中可进一步地包括元件。可替代地或附加地,一些元件(例如,模块或程序)可集成在一个实体中以执行与集成之前由每个独立元件执行的功能相同或相似的功能。根据各实施方式,由模块、程序或其他元件执行的操作可顺序地、以并行、重复或试探的方式执行,或者至少一些操作可以以不同的顺序来执行,或者可添加至少一个其他操作。
虽然本文已经示出和描述本公开的各示例性实施方式,但是应理解,各示例性实施方式旨在是说明性的而不是限制。本领域普通技术人员应理解,在没有背离如例如所附权利要求及其等同中阐述的本公开的实际精神和全部范围的情况下,可在形式和细节方面进行各种变化。
Claims (9)
1.电子设备,包括:
通信模块,包括通信电路;
处理器;以及
存储器,存储至少一个命令,所述至少一个命令在被所述处理器执行时控制所述电子设备执行:
响应于至少一个事件的发生执行应用,所述应用配置成利用所述通信模块与另一电子设备发送和接收文本数据或语音数据中至少之一,
基于从所述另一电子设备接收到文本数据或语音数据中的至少之一以及利用数字助手根据言辞的特征生成了文本数据或语音数据中的至少之一,利用所述数字助手识别是否需要进行确认,
基于需要进行确认,利用所述数字助手生成用以请求确认的通知,以及
利用所述应用输出所述通知,
其中,所述至少一个命令在由所述处理器执行时控制所述电子设备基于以下中的一者或多者来识别出需要确认:
从所述另一电子设备接收的文本数据或语音数据的至少一些内容与所生成的文本数据或语音数据的至少一些内容不一致,
从所述另一电子设备接收的文本数据或语音数据中所包括的建议,
对与从所述另一电子设备接收的文本数据或语音数据相同或相似的文本数据或语音数据进行响应所需要的时间大于或等于预定时间,以及
包括在从所述另一电子设备接收的文本数据或语音数据中的至少一些内容与预先存储在所述电子设备中的文本数据或语音数据之间的相似度小于或等于预定值。
2.如权利要求1所述的电子设备,其中,用以请求确认的所述通知包括以从所述另一电子设备接收的文本数据或语音数据为基础的文本数据或语音数据。
3.如权利要求2所述的电子设备,其中,所述电子设备还包括显示器,以及
其中,所述至少一个命令在被所述处理器执行时控制所述电子设备执行:
显示对用以请求确认的所述通知中所包括的文本数据的内容进行准许的对象、用以拒绝的对象以及用以接收直接输入的对象中的至少之一。
4.如权利要求1所述的电子设备,其中,所述至少一个命令在被所述处理器执行时控制所述电子设备执行:
向所述另一电子设备发送声音数据或指示符,以提供表示所述数字助手基于所述言辞的特征生成了文本数据或语音数据中的至少之一和表示所述数字助手基于利用所述应用输出的数据生成了所述文本数据或语音数据的通知。
5.如权利要求1所述的电子设备,其中,所述至少一个命令在被所述处理器执行时控制所述电子设备执行:
利用从所述另一电子设备接收的文本数据或语音数据的至少一部分或由所述数字助手生成的文本数据或语音数据,生成概要文本数据或概要语音数据,以及
利用所述应用输出所述概要文本数据或概要语音数据。
6.服务器,包括:
数据获取单元,包括数据获取电路,配置成从外部电子设备获取文本数据或语音数据中的至少之一;
数据处理器,配置成:响应于所获取的文本数据或语音数据以及根据基于言辞的特征生成文本数据或语音数据中的至少之一,识别是否需要进行确认,以及生成用以请求确认的通知;以及
数据输出器,包括数据输出电路,且配置成向所述外部电子设备发送请求确认的通知,
其中,所述数据处理器配置成基于以下中的一者或多者来识别出需要确认:
从所述外部电子设备接收的文本数据或语音数据的至少一些内容与所生成的文本数据或语音数据的至少一些内容不一致,
从所述外部电子设备接收的文本数据或语音数据中所包括的建议,
对与从所述外部电子设备接收的文本数据或语音数据相同或相似的文本数据或语音数据进行响应所需要的时间大于或等于预定时间,以及
包括在从所述外部电子设备接收的文本数据或语音数据中的至少一些内容与预先存储在所述服务器中的文本数据或语音数据之间的相似度小于或等于预定值。
7.控制电子设备的方法,所述方法包括:
响应于至少一个事件的发生,执行与另一电子设备发送和接收文本数据或语音数据中的至少之一的应用;
基于从所述另一电子设备接收到文本数据或语音数据中的至少之一以及利用数字助手基于言辞的特征生成了文本数据或语音数据中的至少之一,利用所述数字助手识别是否需要进行确认;以及
基于需要进行确认,利用所述数字助手生成用以请求确认的通知,以及
利用所述应用输出所述通知,
其中,基于以下中的一者或多者来识别出需要所述确认:
从所述另一电子设备接收的文本数据或语音数据的至少一些内容与所生成的文本数据或语音数据的至少一些内容不一致,
从所述另一电子设备接收的文本数据或语音数据中所包括的建议,
对与从所述另一电子设备接收的文本数据或语音数据相同或相似的文本数据或语音数据进行响应所需要的时间大于或等于预定时间,以及
包括在从所述另一电子设备接收的文本数据或语音数据中的至少一些内容与预先存储在所述电子设备中的文本数据或语音数据之间的相似度小于或等于预定值。
8.如权利要求7所述的方法,其中,用以请求确认的所述通知包括以从所述另一电子设备接收的文本数据或语音数据为基础的文本数据或语音数据。
9.如权利要求8所述的方法,还包括:
基于需要进行确认,显示准许用以请求确认的所述通知中所包括的文本数据的内容的对象、用以拒绝的对象以及用以接收直接输入的对象中的至少之一。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180153683A KR102701868B1 (ko) | 2018-12-03 | 2018-12-03 | 전자 장치 및 전자 장치의 제어 방법 |
KR10-2018-0153683 | 2018-12-03 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111258529A CN111258529A (zh) | 2020-06-09 |
CN111258529B true CN111258529B (zh) | 2023-10-20 |
Family
ID=68654351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911217718.5A Active CN111258529B (zh) | 2018-12-03 | 2019-12-03 | 电子设备及其控制方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11495220B2 (zh) |
EP (2) | EP3663907B1 (zh) |
KR (2) | KR102701868B1 (zh) |
CN (1) | CN111258529B (zh) |
WO (1) | WO2020116818A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102701868B1 (ko) | 2018-12-03 | 2024-09-03 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
CN115989477A (zh) * | 2021-04-06 | 2023-04-18 | 松下知识产权经营株式会社 | 发话设备的发话测试方法、发话测试服务器、发话测试系统以及用于与发话测试服务器进行通信的终端的程序 |
US12014727B2 (en) * | 2021-07-14 | 2024-06-18 | Google Llc | Hotwording by degree |
CN116416994A (zh) * | 2021-12-30 | 2023-07-11 | 华为技术有限公司 | 语音协同输入方法、电子设备及计算机可读存储介质 |
KR20240041733A (ko) * | 2022-09-23 | 2024-04-01 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006140731A (ja) * | 2004-11-11 | 2006-06-01 | Canon Electronics Inc | 認証システム |
CN1989733A (zh) * | 2004-05-21 | 2007-06-27 | 电缆优势软件有限公司 | 远程访问系统和方法以及其智能代理 |
CN107111516A (zh) * | 2015-01-09 | 2017-08-29 | 微软技术许可有限责任公司 | 数字个人助理内的无头任务完成 |
CN107229729A (zh) * | 2017-06-07 | 2017-10-03 | 北京幸福圈科技有限公司 | 一种基于人工智能助手的效率经济商业模式系统 |
CN108352006A (zh) * | 2015-11-06 | 2018-07-31 | 苹果公司 | 即时消息环境中的智能自动化助理 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001075555A2 (en) | 2000-03-06 | 2001-10-11 | Conita Technologies, Inc. | Personal virtual assistant |
US20020097419A1 (en) | 2001-01-19 | 2002-07-25 | Chang William Ho | Information apparatus for universal data output |
US8943018B2 (en) * | 2007-03-23 | 2015-01-27 | At&T Mobility Ii Llc | Advanced contact management in communications networks |
US20090228583A1 (en) * | 2008-03-07 | 2009-09-10 | Oqo, Inc. | Checking electronic messages for compliance with user intent |
KR101129535B1 (ko) * | 2009-12-02 | 2012-03-29 | 동국대학교 산학협력단 | 이동통신단말기에서의 응답 메시지 송신 방법 및 이를 수행하는 이동통신단말기 |
US8468022B2 (en) * | 2011-09-30 | 2013-06-18 | Google Inc. | Voice control for asynchronous notifications |
KR101954801B1 (ko) | 2012-06-21 | 2019-03-07 | 에스케이플래닛 주식회사 | 메시지 서비스 장치, 및 그의 자동 응답 서비스 방법 |
KR101909141B1 (ko) * | 2012-07-27 | 2018-10-17 | 엘지전자 주식회사 | 전자기기 및 전자기기의 제어방법 |
KR101977087B1 (ko) | 2012-12-24 | 2019-05-10 | 엘지전자 주식회사 | 자동응대 기능을 갖는 이동 단말기 및 그의 자동응대 방법 |
KR20140125486A (ko) | 2013-04-19 | 2014-10-29 | 안찬이 | 자동 응답 서비스 제공 방법 |
WO2014197737A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10134395B2 (en) | 2013-09-25 | 2018-11-20 | Amazon Technologies, Inc. | In-call virtual assistants |
US9367537B2 (en) * | 2014-04-01 | 2016-06-14 | International Business Machines Corporation | Analyzing messages and/or documents to provide suggestions to modify messages and/or documents to be more suitable for intended recipients |
WO2015156443A1 (ko) | 2014-04-11 | 2015-10-15 | 네무스텍(주) | 카툰형 모바일 개인 비서 서비스 시스템 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
WO2016018111A1 (en) * | 2014-07-31 | 2016-02-04 | Samsung Electronics Co., Ltd. | Message service providing device and method of providing content via the same |
US9721004B2 (en) | 2014-11-12 | 2017-08-01 | International Business Machines Corporation | Answering questions via a persona-based natural language processing (NLP) system |
US10956957B2 (en) | 2015-03-25 | 2021-03-23 | Facebook, Inc. | Techniques for automated messaging |
WO2016166417A1 (en) * | 2015-04-13 | 2016-10-20 | Equivalentor Oy | Method for generating natural language communication |
KR102341144B1 (ko) | 2015-06-01 | 2021-12-21 | 삼성전자주식회사 | 메시지를 출력하는 전자 장치 및 그 제어 방법 |
CN113612677A (zh) * | 2015-10-20 | 2021-11-05 | 索尼公司 | 信息处理系统和信息处理方法 |
WO2017099483A1 (en) | 2015-12-09 | 2017-06-15 | Samsung Electronics Co., Ltd. | Device and method for providing user-customized content |
KR102174346B1 (ko) * | 2015-12-21 | 2020-11-04 | 구글 엘엘씨 | 메시징 애플리케이션들을 위한 자동적인 제안들 및 다른 콘텐츠 |
US10193833B2 (en) * | 2016-03-03 | 2019-01-29 | Oath Inc. | Electronic message composition support method and apparatus |
KR20180019869A (ko) * | 2016-08-17 | 2018-02-27 | 주식회사 텍스트팩토리 | 챗봇을 이용한 개인 비서 서비스 제공 방법 |
KR102391298B1 (ko) * | 2017-04-24 | 2022-04-28 | 삼성전자주식회사 | 음성 인식 서비스를 제공하는 전자 장치 및 그 방법 |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US10922483B1 (en) * | 2017-08-04 | 2021-02-16 | Grammarly, Inc. | Artificial intelligence communication assistance for providing communication advice utilizing communication profiles |
CN107612814A (zh) * | 2017-09-08 | 2018-01-19 | 北京百度网讯科技有限公司 | 用于生成候选回复信息的方法和装置 |
WO2019075430A1 (en) * | 2017-10-12 | 2019-04-18 | Gravyty Technologies, Inc. | SYSTEMS AND METHODS FOR PROVIDING AND MANAGING PROACTIVE AND INTELLIGENT COMMUNICATIONS |
US10680978B2 (en) * | 2017-10-23 | 2020-06-09 | Microsoft Technology Licensing, Llc | Generating recommended responses based on historical message data |
KR102701868B1 (ko) | 2018-12-03 | 2024-09-03 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
-
2018
- 2018-12-03 KR KR1020180153683A patent/KR102701868B1/ko active IP Right Grant
-
2019
- 2019-11-14 US US16/683,571 patent/US11495220B2/en active Active
- 2019-11-18 WO PCT/KR2019/015777 patent/WO2020116818A1/en active Application Filing
- 2019-11-22 EP EP19210852.0A patent/EP3663907B1/en active Active
- 2019-11-22 EP EP23191524.0A patent/EP4250288A3/en active Pending
- 2019-12-03 CN CN201911217718.5A patent/CN111258529B/zh active Active
-
2022
- 2022-11-02 US US17/979,078 patent/US12087298B2/en active Active
-
2024
- 2024-08-28 KR KR1020240116194A patent/KR20240134807A/ko active Search and Examination
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1989733A (zh) * | 2004-05-21 | 2007-06-27 | 电缆优势软件有限公司 | 远程访问系统和方法以及其智能代理 |
JP2006140731A (ja) * | 2004-11-11 | 2006-06-01 | Canon Electronics Inc | 認証システム |
CN107111516A (zh) * | 2015-01-09 | 2017-08-29 | 微软技术许可有限责任公司 | 数字个人助理内的无头任务完成 |
CN108352006A (zh) * | 2015-11-06 | 2018-07-31 | 苹果公司 | 即时消息环境中的智能自动化助理 |
CN107229729A (zh) * | 2017-06-07 | 2017-10-03 | 北京幸福圈科技有限公司 | 一种基于人工智能助手的效率经济商业模式系统 |
Non-Patent Citations (1)
Title |
---|
模拟英语对话机器人的研究与实现可行性分析;严英;微计算机信息(04);第120-121页 * |
Also Published As
Publication number | Publication date |
---|---|
KR20240134807A (ko) | 2024-09-10 |
CN111258529A (zh) | 2020-06-09 |
EP4250288A2 (en) | 2023-09-27 |
EP3663907B1 (en) | 2023-08-16 |
EP4250288A3 (en) | 2023-12-13 |
EP3663907A1 (en) | 2020-06-10 |
US20200175985A1 (en) | 2020-06-04 |
WO2020116818A1 (en) | 2020-06-11 |
KR20200066933A (ko) | 2020-06-11 |
US20230050159A1 (en) | 2023-02-16 |
EP3663907C0 (en) | 2023-08-16 |
US11495220B2 (en) | 2022-11-08 |
KR102701868B1 (ko) | 2024-09-03 |
US12087298B2 (en) | 2024-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111258529B (zh) | 电子设备及其控制方法 | |
US10832674B2 (en) | Voice data processing method and electronic device supporting the same | |
EP3608906B1 (en) | System for processing user voice utterance and method for operating same | |
JP2017058673A (ja) | 対話処理装置及び方法と知能型対話処理システム | |
KR102545666B1 (ko) | 페르소나에 기반하여 문장을 제공하는 방법 및 이를 지원하는 전자 장치 | |
KR20180121758A (ko) | 사용자 발화를 처리하는 전자 장치 및 이 전자 장치의 제어 방법 | |
CN112840396A (zh) | 用于处理用户话语的电子装置及其控制方法 | |
US20210335360A1 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
KR102701423B1 (ko) | 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법 | |
ES2950974T3 (es) | Dispositivo electrónico para realizar una tarea que incluye una llamada en respuesta al pronunciamiento de un usuario y procedimiento de operación del mismo | |
US11474780B2 (en) | Method of providing speech recognition service and electronic device for same | |
EP4220628A1 (en) | Electronic device for supporting service for artificial intelligent agent that talks with user | |
US11145290B2 (en) | System including electronic device of processing user's speech and method of controlling speech recognition on electronic device | |
JP2003140690A (ja) | 情報システム、電子機器、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |