CN110431547A - 电子设备和控制方法 - Google Patents

电子设备和控制方法 Download PDF

Info

Publication number
CN110431547A
CN110431547A CN201880019396.0A CN201880019396A CN110431547A CN 110431547 A CN110431547 A CN 110431547A CN 201880019396 A CN201880019396 A CN 201880019396A CN 110431547 A CN110431547 A CN 110431547A
Authority
CN
China
Prior art keywords
data
keyword
content
electronic equipment
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880019396.0A
Other languages
English (en)
Inventor
朴灿钟
金地万
梁道俊
李贤优
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority claimed from PCT/KR2018/000947 external-priority patent/WO2018174397A1/ko
Publication of CN110431547A publication Critical patent/CN110431547A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/745Browsing; Visualisation therefor the internal structure of a single video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种使用诸如深度学习的机器学习算法的人工智能(AI)系统及其应用。本公开提供了一种电子设备,包括:输入单元,用于接收内容数据;存储器,用于存储关于内容数据的信息;音频输出单元,用于输出内容数据;以及处理器,通过分析输入的内容数据来获取多个数据关键词,匹配并存储内容数据的、分别与多个所获取的关键词对应的时间戳,基于输入的用户命令在存储的数据关键词当中搜索与输入的用户命令对应的数据关键词,以及基于与搜索到的数据关键词对应的时间戳来播放内容数据。

Description

电子设备和控制方法
技术领域
本公开涉及一种电子设备和控制方法。更具体地,本公开涉及一种分析内容数据的内容并播放用户期望的内容数据的特定部分的电子设备、以及控制方法。
此外,本公开涉及使用机器学习算法模拟人脑的诸如认知、确定等的功能的人工智能(Artificial Intelligence,AI)系统及其应用。
背景技术
人工智能(AI)系统是实施人类水平的智能的计算机系统,与现有的基于规则的智慧系统不同,该系统是机器自行学习、确定以及变得智慧的系统。随着人工智能系统(AI)的使用越来越多,人工智能系统(AI)的识别率得到了改进,用户偏好也得到了更准确的理解,因此现有的基于规则的智慧系统逐渐被基于深度学习的人工智能系统所取代。
人工智能(AI)技术包括机器学习(深度学习)和使用机器学习的元件技术。
机器学习是自行分类和学习输入数据的特征的算法技术。元件技术是利用诸如深度学习等的机器学习算法的技术,其包括包含语言学理解、可视理解、推理/预测、知识表达、运动控制等的技术领域。
人工智能(AI)技术应用于其的各个领域如下所示。语言学理解是识别人类的语言和文字并且应用和处理所识别的人类语言和文字的技术,其可以包括自然语言处理、机器翻译、对话系统、问答、语音识别和合成等。可视理解是识别对象就好像对象是从人类视线而观察的技术,其可以包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解、图像改进等。推理和预测是识别信息以执行逻辑推理和预测的技术,其可以包括基于知识/概率的推理、优化预测、基于偏好的计划、推荐等。知识表达是将人类经验信息作为知识数据对其执行自动处理的技术,其可以包括知识构造(数据生成/分类)、知识管理(数据利用)等。运动控制是控制车辆的自动驾驶和机器人运动的技术,其可以包括运动控制(导航、碰撞和驾驶)、操纵控制(行为控制)等。
同时,随着技术的进步,正在研发具有改进性能的小型化记录设备。随着记录设备的普及,在各个地方进行记录并在稍后播放记录的数据变得越来越普遍。例如,当上了十次一小时讲座的用户记录讲座时,可以记录总共十小时的讲座数据。用户可能期望再次收听讲座中的特定主题。然而,随着时间的推移,用户难以知道整个讲座数据的哪个部分中记录了要再次收听的特定主题。
因此,当用户期望通过使用人工智能技术收听特定主题时,需要一种播放与用户话语(utterance)匹配的部分的内容数据的技术。
发明内容
技术问题
本公开用以提供一种分析内容数据并且播放与用户话语匹配的内容数据的特定部分的电子设备、以及控制方法。
技术方案
实现上述目的的根据本公开的一方面的电子设备包括:输入单元,用于接收内容数据;存储器,用于存储关于内容数据的信息;音频输出单元,用于输出内容数据;以及处理器,通过分析输入的内容数据来获取多个数据关键词,匹配并存储内容数据的、分别与多个所获取的关键词对应的时间戳,基于输入的用户命令在存储的数据关键词当中搜索与输入的用户命令对应的数据关键词,以及基于与搜索到的数据关键词对应的时间戳来播放内容数据。
另外,处理器可以基于内容数据的上下文或数据关键词的频率中的至少一个来为数据关键词分配权重。
另外,处理器可以分析输入的用户命令并获取命令关键词,为所获取的命令关键词分配权重,识别与命令关键词匹配的数据关键词,基于所识别的数据关键词的权重和命令关键词的权重来计算得分,基于计算的得分来搜索具有最高得分的数据关键词,以及基于与搜索到的数据关键词对应的时间戳来播放内容数据。
同时,数据关键词可以包括域关键词和子关键词。
另外,域关键词可以包括被包括在内容数据中的句子的主题词。
另外,子关键词可以包括域关键词的相似词、域关键词的相关词和被包括在与域关键词相关的另一句子中的词中的至少一个。
同时,电子设备还可以包括用于基于域关键词和子关键词在可视化图表中显示内容数据的结构的显示器。
另外,如果输入关于被包括在可视化图表中的数据关键词的选择命令,则处理器可以基于与所选择的数据关键词对应的时间戳来播放内容数据。
为实现上述目的的根据本公开的一方面的电子设备的控制方法包括:接收并存储内容数据;分析输入的内容数据,以便获取多个数据关键词;匹配并存储内容数据的、分别与多个所获取的关键词对应的时间戳;基于输入的用户命令,在存储的数据关键词当中搜索与输入的用户命令对应的数据关键词;以及基于与搜索到的数据关键词对应的时间戳来播放内容数据。
另外,电子设备的控制方法还可以包括基于内容数据的上下文或数据关键词的频率中的至少一个来为数据关键词分配权重。
同时,搜索数据关键词可以包括分析输入的用户命令并获取命令关键词,为所获取的命令关键词分配权重,识别与命令关键词匹配的数据关键词,基于所识别的数据关键词的权重和命令关键词的权重来计算得分,基于计算的得分来搜索具有最高得分的数据关键词,以及基于与搜索到的数据关键词对应的时间戳来播放内容数据。
同时,数据关键词可以包括域关键词和子关键词。
另外,域关键词可以包括被包括在内容数据中的句子的主题词。
另外,子关键词可以包括域关键词的相似词、域关键词的相关词和被包括在与域关键词相关的另一句子中的词中的至少一个。
同时,电子设备的控制方法还可以包括基于域关键词和子关键词在可视化图表中显示内容数据的结构。
另外,播放内容数据可以包括如果输入关于被包括在可视化图表中的数据关键词的选择命令,则基于与所选择的数据关键词对应的时间戳来播放内容数据。
技术效果
根据上述各种实施例,在电子设备和控制方法中,可以播放与用户话语匹配的内容数据的特定部分,从而容易地搜索用户期望的内容的特定部分。
附图说明
图1示出了根据本公开的实施例的电子设备的框图;
图2是被提供以解释根据本公开的实施例的电子设备的详细配置的框图;
图3是根据本公开的一些实施例的处理器的框图;
图4a是根据本公开的一些实施例的数据学习单元的框图;
图4b是根据本公开的一些实施例的数据识别单元的框图;
图4c是被提供以解释根据本公开的一些实施例的电子设备和外部服务器之间的互锁操作的框图;
图5是用以解释根据本公开的实施例的智能检索系统的示图;
图6是用以解释根据本公开的实施例的提取数据关键词的过程的示图;
图7是用以解释根据本公开的实施例的分析数据关键词的过程的示图;
图8是用以解释根据本公开的实施例的时间戳映射到其的数据关键词的示图;
图9是用以解释根据本公开的实施例的在可视图表中表示的数据关键词的示图;
图10是用以解释根据本公开的实施例的使用可视图选择内容数据的特定部分的过程的示图;
图11a至图11c是用以解释根据本公开的实施例的通过检索功能播放内容数据的过程的示图;
图12是根据本公开的实施例的电子设备的控制方法的流程图;并且
图13和图14是根据本公开的各种实施例的利用数据识别模型的网络系统的序列图。
具体实施方式
在下文中,将参考附图更详细地描述本公开的优选实施例。用于参考,当确定已知功能或配置的详细描述在描述它们时可能使实施例的要点模糊时,将省略其详细描述。在下文中使用的术语是由所考虑的本公开的功能定义的术语,并且定义可以根据用户、操作员或习惯而变化。因此,对术语的定义应该考虑到本公开的总体内容而进行。
诸如“第一”和“第二”的术语可以用于描述各种元件,但这些元件不应受这些术语限制。这些术语仅用于将一个元件与其他元件区分开来。例如,在不脱离本公开的范围的情况下,“第一”组件可以被命名为“第二”组件,反之亦然。术语“和/或”包括多个相关项的组合或多个相关项中的一个。
本说明书中使用的术语仅用于描述特定实施例而不是限制和/或约束本公开。除非上下文另有明确说明,否则单数形式也旨在包括复数形式。术语“包括”或“包含”用于描述以指示存在特征、数字、操作、元件、部件或其组合,并且它们不应排除组合或添加一个或多个特征、数字、操作、元件、部件或其组合的可能性。
在实施例中,“模块”或“单元”可以执行至少一个功能或操作,并且可以实施为硬件、软件、或硬件和软件的组合。另外,多个“模块”或“单元”可以集成到至少一个模块中,并且可以以集成方式实现为至少一个处理器,但应该在特定硬件中实现的“模块”或“单元”除外。
在下文中,将参考附图详细描述本公开。
图1示出了根据本公开的实施例的电子设备的框图。参考图1,电子设备100可以单独提供智能检索系统。作为另一示例,电子设备100可以与服务器互锁,并且向用户提供智能检索系统。
本文使用的术语“智能检索”是指组合人工智能技术和言语(speech)识别技术以理解用户的语言以及识别用户期望的内容的特定部分并播放所识别的特定部分的软件应用。例如,智能检索服务可以执行人工智能功能,诸如机器学习、言语识别和包括深度学习的上下文感知。智能检索服务可以学习用户的习惯或模式,并且为个人提供个性化服务。
电子设备100可以是诸如智能电话或平板个人计算机(Personal Computer,PC)的移动设备,但是它仅仅是示例。电子设备100可以实施为可以记录或存储并播放内容的各种装置,诸如记录设备、语音识别设备、可穿戴设备、家庭网络的集线器、电子相框、仿人机器人、音频设备等。
参考图1,电子设备100可以包括输入单元110、音频输出单元130、处理器140和存储器160。
输入单元110接收内容数据的输入。例如,内容数据可以是音频数据。输入单元110可以接收由说话者在讲座或会议中发出(utter)的音频数据的输入。也就是说,输入单元110可以接收用户言语的输入。在实施例中,输入单元100可以是麦克风。
存储器160存储关于内容数据的信息。首先,输入到输入单元110的内容数据可以存储在存储器160中。当内容数据是音频数据时,输入的内容数据可以记录在存储器160中。另外,存储器160可以存储程序、数据等,以执行电子设备100的各种功能。
例如,存储器160可以包括存储介质,诸如闪存、硬盘、SSD、SDD、多媒体卡、RAM、ROM、EEPROM、USB存储器等。同时,电子设备100可以与在因特网上执行存储器160的储存功能的网络储存器连接而操作。
处理器140分析输入的内容数据并获取多个数据关键词。例如,处理器140可以分析记录的内容数据并总结主要内容。也就是说,处理器140可以继续对内容数据的上下文分析。处理器140可以将记录的内容转换为文本,并基于转换的文本继续对内容数据的上下文分析。可以基于诸如机器学习、句子分析和包括深度学习的上下文感知的人工智能功能来执行上下文分析。处理器140通过上下文分析获取多个关键词。
另外,处理器140匹配并存储内容数据的、分别与多个所获取的关键词对应的时间戳。例如,当内容数据是关于机器学习的历史、背景、技术理论等的讲座时,处理器120可以获取诸如机器学习、历史、背景和技术理论的关键词,并且生成与所获取的关键词中的每一个对应的点的时间戳。处理器140匹配并存储与所获取的关键词对应的时间戳。
例如,假设机器学习的第一讲座的持续时间是1小时,其中整个讲座从第15分钟到第21分钟是关于机器学习的历史,整个讲座从第21分钟到第27分钟是关于机器学习的背景,整个讲座从第27分钟到第34分钟是关于机器学习的基本理论。处理器140可以提取诸如机器学习、历史、背景和技术理论的关键词,并且生成15分钟、21分钟和27分钟的时间戳。另外,处理器140可以将关键词历史、背景、基本理论与机器学习的第一讲座连接,将15分钟的时间戳与历史连接,将21分钟的时间戳与背景连接,并且将27分钟的时间戳与基本理论连接。
用户可以通过言语检索记录的讲座内容的特定部分。处理器140基于输入的用户命令,在存储的数据关键词当中搜索与输入的用户命令对应的数据关键词。另外,处理器140基于与搜索到的数据关键词对应的时间戳来播放内容数据。
例如,用户可以用语音机器学习和历史向电子设备100发出命令。输入单元110可以接收发出的用户命令的输入。处理器140可以分析并识别输入的用户命令。处理器140可以搜索与所识别的机器学习和所识别的历史对应的关键词。另外,处理器140基于与搜索到的关键词匹配的15分钟的时间戳,从机器学习的第一讲座的第15分钟点播放机器学习的历史。
音频输出单元130输出内容数据。也就是说,在上述示例中,音频输出单元130可以输出机器学习的第一讲座的第15分钟点的讲座数据。例如,音频输出单元130可以是扬声器。
根据上述实施例,电子设备100可以基于诸如机器学习、言语识别、句子分析、和包括深度学习的上下文感知的人工智能功能,分析输入的内容数据,并将分析的内容数据与关键词和时间戳一起存储。另外,电子设备100可以通过执行智能检索以根据用户命令搜索并输出对应的时间戳点的内容数据,为用户提供搜索的便利性。
图2是被提供以解释根据本公开的实施例的电子设备的详细配置的框图。
参考图2,电子设备100可以包括输入单元110、显示器120、音频输出单元130、处理器140、通信单元150和存储器160。除了图2的实施例中示出的元件之外,电子设备100可以包括各种元件,诸如图像接收单元(未示出)、图像处理单元(未示出)、电源单元(未示出)、有线接口(未示出)等。另外,电子设备100不一定被实施为包括图2中示出的所有元件。
输入单元110接收内容数据的输入。在实施例中,输入单元100可以是麦克风。麦克风以各种形式而实施,并执行接收用户言语的输入的功能。麦克风可以包括各种声学滤波器以去除噪声。
同时,输入单元110可以被实施为按钮、运动识别设备、触摸板等。如果输入单元110被实施为触摸板,则它可以与显示器120组合以具有互层(mutual layer)结构的触摸屏的形式而实施。触摸屏可以检测触摸输入的位置、区域、压力等。
显示器120可以显示由电子设备100提供的各种图像内容、信息、UI等。例如,显示器120可以显示提供与用户言语对应的屏幕的响应信息。显示器120可以被实施为液晶显示器(Liquid Crystal Display,LCD)、有机发光显示器(Organic Light Emitting Display,OLED)、等离子体显示面板(Plasma Display Panel,PDP)等,并且显示可以通过电子设备100提供的各种屏幕。
显示器120可以显示与内容数据的关键词对应的可视化图。例如,处理器140可以基于内容数据的域关键词和子关键词生成内容数据的结构。另外,显示器120可以在可视化图中显示所生成的内容数据结构以对应于用户命令。例如,域关键词可以是内容数据的句子或段落的关键的关键词。或者,域关键词可以是被包括在内容数据中的句子的主题词。子关键词可以包括在与域关键词类似的环境中使用的词、在其中使用域关键词的上下文中的词、与域关键词的含义相关的词,域关键词的同义词、与域关键词相关的词、被包括在与域关键词相关的另一句子中的词等。显示器120可以显示与由用户输入的用户命令或搜索到的部分对应的内容数据信息等。
音频输出单元130可以输出音频。音频输出单元130不仅可以输出各种音频数据,还可以输出通知声音或语音消息。根据本公开的实施例的电子设备100可以包括作为输出单元中的一个的扬声器以播放搜索到的内容数据。通过扬声器,电子设备100可以向用户输出通过智能检索功能搜索到的内容数据。扬声器可以内置在电子设备100中,或者可以以诸如插孔等的输出端口的形式而实施。
通信单元150执行与外部设备的通信。例如,外部设备可以被实施为服务器、云存储、网络等。通信单元150可以将言语识别结果发送到外部设备并从外部设备接收对应信息。通信单元150可以从外部设备接收用于言语识别的语言模型。
为此,通信单元150可以包括各种通信模块,诸如近场无线通信模块(未示出)和无线通信模块(未示出)。本文中,近场无线通信模块是指根据诸如蓝牙、Zigbee等的近场无线通信方法与位于附近的外部设备通信的模块。另外,无线通信模块是指根据诸如Wi-Fi、Wi-Fi直连、IEEE等的无线通信协议连接到外部网络并执行通信的模块。另外,无线通信模块还可以包括移动通信模块,其中该移动通信模块根据诸如3G、3GPP、LTE和LTE-A的各种移动通信标准连接到移动通信网络以执行通信。
存储器160可以存储用于驱动电子设备100的各种模块、软件和数据。例如,可以用于识别用户言语的声学模型和语言模型以及可以用于提取内容数据的上下文和关键词的上下文模型可以存储在存储器160中。另外,用于基于用户输入确定候选操作的信息本体(或任务网络)可以存储在存储器160中。另外,从内容数据提取的域关键词和子关键词以及与关键词对应的时间戳可以存储在存储器160中。
存储器160是其中存储操作电子设备100等所需的各种程序的存储介质,其可以以闪存、硬盘驱动器(Hard Disk Drive,HDD)、固态驱动器(Solid State Drive,SSD)等形式而实施。例如,存储器160可以包括存储用以操作电子设备100的程序的ROM和根据电子设备100的操作执行来临时存储数据的RAM。存储器160可以存储用于配置要在显示器120上显示的各种屏幕的程序和数据。另外,存储器240可以存储用于执行特定服务的程序、应用和数据。
处理器140可以分析输入的内容数据并获取多个数据关键词。数据关键词包括域关键词和子关键词。处理器140可以获取多个域关键词和多个子关键词。处理器140可以匹配内容数据的、分别与多个所获取的关键词对应的时间戳,并且将它们存储在存储器160中。另外,当输入用户命令时,处理器140可以识别输入的用户命令。例如,用户命令可以是语音命令。也就是说,处理器140可以使用存储在存储器160中的声学模型和语言模型来识别用户语音。另外,处理器140可以使用存储在存储器160中的上下文模型来提取关键词。
处理器140可以在存储的数据关键词当中搜索与所识别的用户命令对应的数据关键词。处理器140可以基于与搜索到的数据关键词对应的时间戳来播放内容数据。
下面将再次描述更具体的任务。
图3是根据本公开的一些实施例的处理器的框图。
参考图3,根据一些实施例的处理器140可以包括数据学习单元141和数据识别单元142中的至少一个。
数据学习单元141可以学习用于内容数据分析、数据关键词提取、言语识别和语言理解的标准。具体地,数据学习单元141可以学习用于从内容数据提取数据关键词的关键词提取标准。另外,数据学习单元141可以根据是否利用了提取的关键词来学习关键词提取标准。也就是说,数据学习单元141可以基于关键词提取参考数据和学习数据来生成、学习或更新新的关键词提取标准。
这里,数据学习单元141可以学习关键词提取标准,以便根据内容数据的类型来提取不同的关键词。例如,当内容数据中存在一个用户时,数据学习单元141可以学习用于提取重复的关键词的关键词提取标准。或者,当内容数据中存在多个用户时,数据学习单元141可以学习用于提取由多个用户共同发出的关键词的关键词提取标准。
处理器140可以根据所学习的标准来分析内容数据,并确定主数据关键词,并且分析输入的用户言语并确定用户话语的意图。另外,处理器140可以提取与内容数据对应的适当的数据关键词。数据学习单元141可以确定要使用什么数据以便分析内容数据并识别用户言语。数据学习单元141可以获取要用于学习的数据,并且将所获取的数据应用于稍后将描述的数据识别模型,从而学习用于内容数据分析、数据关键词提取和言语识别的标准。
数据识别单元142可以使用所学习的数据识别模型从预定数据识别上下文。数据识别单元142可以通过学习来根据预定标准获取预定数据,并且利用作为输入值的所获取的数据来使用数据识别模型。例如,数据识别单元142可以分析输入的内容数据,并且使用所学习的上下文模型等来提取数据关键词。另外,数据识别单元142可以使用所学习的声学模型和语言模型来识别输入的用户言语。另外,基于所识别的用户言语,数据识别单元142可以从用户的话语确定要执行什么动作。
数据识别单元142可以利用作为输入值的输入的内容数据和提取的数据关键词来再次更新数据识别模型。另外,数据识别单元142可以通过使用作为每个用户的言语识别的结果而获取的数据和作为输入值的候选任务确定来再次更新数据识别模型。如上所述,数据识别单元142可以利用大数据用于内容数据分析、数据关键词提取、言语识别、可执行任务确定等。处理器140可以利用用大数据学习的信息本体。
数据学习单元141的至少一部分和数据识别单元142的至少一部分可以被实施为软件模块,或者以至少一个硬件芯片的形式而制造,并且安装在电子设备上。例如,数据学习单元141和数据识别单元142中的至少一个可以以专用于人工智能(AI)的硬件芯片的形式而制造,或者可以制造为现有通用处理器(例如,CPU或应用处理器)或图形专用处理器(例如,GPU)的一部分并安装在上述各种电子设备或内容数据回放设备上。这里,专用于人工智能的硬件芯片是专门用于概率计算的专用处理器,与现有的通用处理器相比,它显示出高并行处理性能。因此,可以快速处理诸如机器学习的人工智能领域中的计算操作。当数据学习单元141和数据识别单元142被实施为软件模块(或包括指令的程序模块)时,软件模块可以存储在非暂时性计算机可读介质中。在这种情况下,软件模块可以由操作系统(Operating System,OS)或预定应用提供。或者,软件模块的一部分可以由操作系统(OS)提供,并且剩余部分可以由预定应用提供。
根据图3的实施例,数据学习单元141和数据识别单元142两者都安装在电子设备100上,但是它们可以分别安装在单独的设备上。例如,数据学习单元141和数据识别单元142中的一个可以被包括在电子设备100中,并且剩余的一个可以被包括在服务器200中。另外,数据学习单元141和数据识别单元142可以经由有线或无线方式彼此连接,并且可以将由数据学习单元141构建的模型信息提供给数据识别单元142,并且可以将输入到数据识别单元142的数据作为额外的学习数据提供给数据学习单元141。
图4a是根据本公开的一些实施例的数据学习单元141的框图。
参考图4a,根据一些实施例的数据学习单元141可以包括数据获取单元141-1和模型学习单元141-4。另外,数据学习单元141还可以选择性地包括预处理单元141-2、学习数据选择单元141-3和模型评估单元141-5中的至少一个。
数据获取单元141-1可以获取确定上下文所需的数据。例如,数据获取单元141-1可以通过将通过输入单元110输入的内容数据或用户语音信号转换为数字信号来获取音频数据。另外,数据获取单元141-1可以从服务器200或诸如因特网的网络接收学习音频数据。
模型学习单元131-4可以基于学习数据学习用于确定上下文的标准。另外,模型学习单元131-4可以学习针对其使用学习数据以便确定上下文的标准。
例如,模型学习单元141-4可以通过比较多个音频数据来学习区分音素、音节、元音等的物理特性。通过以上,模型学习单元141-4可以建立用于对诸如音素之类的声音单元进行分类的声学模型(Acoustic Model,AM)。另外,模型学习单元141-4可以通过比较多个音频数据来学习词的使用或词汇使用。通过以上,模型学习单元141-4可以建立语言模型(Language Model,LM)。
作为另一示例,模型学习单元141-4可以基于所识别的用户言语建立可以确定可执行操作的信息本体。
另外,模型学习单元141-4可以从内容数据学习音节、句法词、词、词类等,并且学习句子或段落之间的上下文。模型学习单元141-4可以通过学习建立上下文模型。另外,模型学习单元141-4可以从内容数据提取关键词,并且使用提取的关键词建立本体。
模型学习单元141-4可以使用学习数据来学习用于确定上下文的数据识别模型。在这种情况下,数据识别模型可以是预先建立的模型。例如,数据识别模型可以是通过接收基本学习数据(例如,样本内容数据、样本音频数据等)提前建立的模型。作为另一示例,数据识别模型可以是使用大数据而提前建立的声学模型(AM)或语言模型(LM)。
可以考虑识别模型的应用领域、学习的目标、设备的计算机性能等来建立数据识别模型。数据识别模型可以是例如基于神经网络的模型。例如,诸如深度神经网络(DeepNeural Network,DNN)、递归神经网络(Recurrent Neural Network,RNN)和双向递归深度神经网络(Recurrent Deep Neural Network,BRDNN)的模型可以用作数据识别模型,但不限于此。
根据各种实施例,如果存在多个预先建立的数据识别模型,则模型学习单元141-4可以将输入的学习数据和基本学习数据之间具有高相关性的数据识别模型确定为要学习的数据识别模型。在这种情况下,可以通过数据类型对基本学习数据进行预分类,并且可以通过数据类型预先建立数据识别模型。例如,可以通过诸如生成学习数据的区域、生成学习数据的时间、学习数据的大小、学习数据的体裁(genre)、学习数据的生成器、学习数据内的对象的类型等的各种标准对基本学习数据进行预分类。
另外,模型学习单元141-4例如可以使用包括误差反向传播方法或梯度下降方法等的学习算法来学习数据识别模型。
例如,模型学习单元141-4可以使用作为输入值的学习数据通过监督学习来学习数据识别模型。作为另一示例,模型学习单元141-4可以通过无监督学习来学习数据识别模型,其中该无监督学习通过学习用于确定上下文的数据的类型来找到用于确定上下文的标准而无需进一步指导。作为另一示例,模型学习单元141-4可以通过强化学习来学习数据识别模型,其中该强化学习使用对根据学习的上下文确定的结果是否正确的反馈。
此外,当数据识别模型被学习时,模型学习单元141-4可以存储所学习的数据识别模型。在这种情况下,模型学习单元141-4可以将所学习的数据识别模型存储在电子设备100的存储器160中。或者,模型训练单元141-4可以将所学习的数据识别模型存储在经由有线或无线网络连接到电子设备10的服务器200的存储器中。
在这种情况下,其中存储所学习的数据识别模型的存储器160可以将与电子设备100的至少一个其他元件相关的命令或数据一起存储。另外,存储器160可以存储软件和/或程序。例如,程序可以包括内核、中间件、应用编程接口(Application ProgrammingInterface,API)和/或应用程序(或“应用”)等。
数据学习单元141还可以包括预处理单元141-2和学习数据选择单元141-3,以便改进数据识别模型的结果或者节省生成数据识别模型所需的资源或时间。
预处理单元141-2可以预处理所获取的数据,使得所获取的数据可以用于学习以确定上下文。预处理单元141-2可以预处理所获取的数据,使得所获取的数据可以用于学习以用于确定上下文。
例如,预处理单元141-2可以获取输入的内容数据的一些片段(section)或者要关于输入的用户语音而识别的片段。另外,预处理单元141-2可以通过去除噪声、提取特征等来生成音频数据。
作为另一示例,预处理单元141-2可以通过分析输入的内容数据或输入的用户语音的频率元素来增强一些频率元素,并且以抑制剩余频率元素的方式生成适合于语音识别的音频数据。或者,预处理单元141-2可以将输入的语音内容数据转换为文本内容数据。
学习数据选择单元141-3可以从预处理的数据当中选择学习所需的数据。可以将所选择的数据提供给模型学习单元141-4。学习数据选择单元141-3可以根据用于确定上下文的预定标准从预处理的数据当中选择学习所需的数据。另外,学习数据选择单元141-3可以通过模型学习单元141-4的学习,根据预定标准选择数据。
例如,在学习开始时,学习数据选择单元141-3可以以音节为单位划分预处理的上下文数据,或者去除后置等。或者,学习数据选择单元141-3可以去除预处理的音频数据当中具有高相似性的音频数据。换句话说,对于初始学习,学习数据选择单元141-3可以选择数据以学习容易区分的标准。
作为另一示例,学习数据选择单元141-3可以仅选择包括诸如名词等的言语的特定部分的音频数据。学习数据选择单元141-3可以仅选择与特定上下文对应的数据。通过选择言语的特定部分或特定上下文的数据,学习数据选择单元141-3可以允许模型学习单元141-4学习适合于所选择的言语的特定部分或特定上下文的标准。
或者,学习数据选择单元141-3可以仅选择以特定语言发出的音频数据。由于话语特性根据语言而变化,学习数据选择单元141-3可以允许模型学习单元141-4通过选择以特定语言发出的音频数据集来学习适合于所选择的特定语言的标准。
相反,学习数据选择单元141-3可以选择言语的数个部分或数个上下文的数据。通过以上,模型学习单元141-4可以学习针对上下文包括言语的什么部分或什么上下文的标准。另外,学习数据选择单元141-3可以选择反映每种语言的特性的音频数据。通过以上,模型学习单元141-4可以学习针对音频数据对应于哪种语言的标准。
同时,学习数据选择单元141-3可以允许模型学习单元141-4通过仅选择特定用户的音频数据来学习针对说话者依赖识别(speaker dependent recognition)或说话者采纳识别(speaker adoption recognition)的标准。
另外,数据学习选择单元141-3可以通过学习选择通常满足预定标准中的一个的预处理的音频数据。通过以上,模型学习单元141-4可以学习与已经学习的标准不同的标准。
数据学习部分141还可以包括模型评估单元141-5,以便改善数据识别模型的输出结果。
模型评估单元141-5可以将评估数据输入到数据识别模型,并且如果根据评估数据输出的识别结果不满足预定标准,则允许模型学习单元141-4再次学习。在这种情况下,评估数据可以是用于评估数据识别模型的预定数据。
在初始识别模型构建阶段,评估数据可以是包括具有不同物理特性的音素的音频数据。或者,评估数据可以是具有不同词、上下文等的数据。随后,评估数据可以由音频数据集或其相似度逐渐变得一致的数据集代替。通过以上,模型评估单元141-5可以逐渐验证数据识别模型的性能。
例如,如果评估数据的所学习的数据识别模型的识别结果当中识别结果不准确的评估数据的数量或比率超过预定阈值,则模型评估单元141-5可以评估不满足预定标准。例如,当预定标准被定义为2%的比率时,当所学习的数据识别模型输出来自总共1000个评估数据的超过20个的评估数据的不正确的识别结果时,模型评估单元141-5可以评估所学习的数据识别模型不适合。
另一方面,当存在多个所学习的数据识别模型时,模型评估单元141-5可以评估所学习的运动图像识别模型中的每一个是否满足预定标准并将满足预定标准的模型确定为最终数据识别模型。在这种情况下,当存在满足预定标准的多个模型时,模型评估单元141-5可以将先前按评估得分的降序设置的模型中的任何一个或预定数量的模型确定为最终数据识别模型。
同时,数据学习单元141中的数据获取单元141-1、预处理单元141-2、学习数据选择单元141-3、模型学习单元141-4和模型评估单元141-5中的至少一个可以以硬件芯片的形式而制造并安装在电子设备上。例如,数据获取单元141-1、预处理单元141-2、学习数据选择单元141-3、模型学习单元141-4和模型评估单元141-5中的至少一个可以以专用于人工智能(AI)的硬件的芯片的形式、以现有的通用处理器(例如,CPU或应用处理器)的形式而制造,或者制造为特定功能的IP的一部分以安装在上述各种电子设备100上。
数据获取单元141-1、预处理单元141-2、学习数据选择单元141-3、模型学习单元141-4和模型评估单元141-5可以安装在单个电子设备上或分别安装在单独的电子设备上。例如,数据获取单元141-1、预处理单元141-2、学习数据选择单元141-3、模型学习单元141-4和模型评估单元141-5中的一些可以被包括在电子设备100中,并且其余的可以被包括在服务器200中。
同时,数据获取单元141-1、预处理单元141-2、学习数据选择单元141-3、模型学习单元141-4和模型评估单元141-5中的至少一个可以被实施为软件模块。如果数据获取单元141-1、预处理单元141-2、学习数据选择单元141-3、模型学习单元141-4和模型评估单元141-5中的至少一个被实施为软件模块(或包括指令的程序模块),则软件模块可以存储在非暂时性计算机可读记录介质中。至少一个软件模块可以由操作系统(OS)或预定应用提供。或者,至少一个软件模块的一部分可以由OS提供,并且剩余部分可以由预定应用提供。
图4b是根据本公开的一些实施例的数据识别单元142的框图。参考图4b,根据一些实施例的数据识别单元142可以包括数据获取单元142-1和识别结果提供单元142-4。另外,数据识别单元142还可以选择性地包括预处理单元142-2、识别数据选择单元142-3和模型更新单元142-5中的至少一个。
数据获取单元142-1可以获取确定上下文所需的数据。识别结果提供单元142-4可以将所选择的数据应用于数据识别模型以确定上下文。识别结果提供单元142-4可以根据数据识别目的来提供识别结果。识别结果提供单元142-4可以通过使用由识别数据选择单元142-3选择的数据作为输入值将所选择的数据应用于数据识别模型。另外,识别结果可以由数据识别模型确定。
例如,识别结果提供单元142-4可以根据在数据识别模型中确定的分类标准来识别输入的内容数据或输入的用户话语。另外,可以基于所识别的内容数据确定上下文。另外,通过使用用户语音和信息本体,处理器140可以确定用户意图执行什么任务。作为另一示例,识别结果提供单元142-4可以使用数据识别模型来识别输入的内容数据中的数据关键词。另外,识别结果提供单元142-4可以识别输入的用户话语中的关键词。基于数据关键词,处理器140可以生成时间戳并将所生成的时间戳与数据关键词匹配,并且基于所识别的关键词确定候选任务。
数据识别单元142还可以包括预处理单元142-2和识别数据选择单元142-3,以便改善数据识别模型的输出结果或节省提供输出结果的时间或资源。
预处理单元141-2可以预处理所获取的数据,使得所获取的数据可以用于确定上下文。预处理单元142-2可以将所获取的数据处理成预定格式,使得识别结果提供单元142-4可以利用所获取的数据来确定上下文。
识别数据选择单元142-3可以从预处理的数据选择用以确定上下文的数据。可以将所选择的数据提供给识别结果提供单元142-4。识别数据选择单元142-3可以根据用于确定上下文的预定标准来选择预处理的数据中的一些或全部。另外,识别数据选择单元142-3可以通过模型学习单元141-4的学习,根据预定标准选择数据。
模型更新单元142-5可以基于对由识别结果提供部分142-4提供的识别结果的评估来控制数据识别模型被更新。例如,模型更新单元142-5可以向模型学习单元141-4提供由识别结果提供单元142-4提供的识别结果,使得模型学习单元141-4可以更新数据识别模型。
数据识别单元142中的数据获取单元142-1、预处理单元142-2、识别数据选择单元142-3、识别结果提供单元142-4和模型更新单元142-5中的至少一个可以以至少一个硬件芯片的形式而制造并安装在电子设备上。例如,数据获取单元142-1、预处理单元142-2、识别数据选择单元142-3、识别结果提供单元142-4和模型更新单元142-5中的至少一个可以以专用于人工智能(AI)的硬件的芯片的形式、以现有的通用处理器(例如,CPU或应用处理器)的形式而制造,或制造为特定功能的IP的一部分以安装在上述各种电子设备100上。
数据获取单元142-1、预处理单元142-2、识别数据选择单元142-3、识别结果提供单元142-4和模型更新单元142-5可以安装在单个电子设备上或分别安装在单独的电子设备上。例如,数据获取单元142-1、预处理单元142-2、识别数据选择单元142-3、识别结果提供单元142-4和模型更新单元142-5中的一些可以被包括在电子设备100中,并且其余的可以被包括在服务器200中。
同时,数据获取单元142-1、预处理单元142-2、识别数据选择单元142-3、识别结果提供单元142-4和模型更新单元142-5中的至少一个可以被实施为软件模块。如果数据获取单元142-1、预处理单元142-2、识别数据选择单元142-3、识别结果提供单元142-4和模型更新单元142-5中的至少一个被实施为软件模块(或包括指令的程序模块),软件模块可以存储在非暂时性计算机可读记录介质中。至少一个软件模块可以由操作系统(OS)或预定应用提供。或者,至少一个软件模块的一部分可以由OS提供,并且剩余部分可以由预定应用提供。
图4c是示出根据本公开的实施例的电子设备100和外部服务器S彼此互锁以学习数据并提供数据识别结果的示例的示图。
参考图4c,外部服务器S可以学习用于从内容数据获取关键词的数据识别模型,并且电子设备100可以基于服务器S的学习结果来提供数据识别结果。
在这种情况下,服务器S的模型学习单元141-4可以执行图4a中示出的数据学习单元141的功能。服务器S的模型学习单元141-4可以学习关于如何执行数据识别的标准。
另外,电子设备100的识别结果提供单元142-4可以将由识别数据选择单元142-3选择的数据应用于由服务器S生成的数据识别模型,并且获取关于内容数据的数据识别结果。或者,电子设备100的识别结果提供单元142-4可以从服务器S接收由服务器S生成的数据识别模型,并且使用所接收的数据识别模型生成数据识别结果。在这种情况下,电子设备100的识别结果提供单元142-4可以将由识别数据选择单元142-3选择的识别数据应用于由服务器S接收的数据识别模型,并且获取关于内容数据的数据识别结果。
图5是用以解释根据本公开的实施例的智能检索系统的示图。
参考图5,智能检索系统1000可以包括电子设备100和服务器200。
电子设备100可以识别输入的内容数据,并且理解内容数据的上下文。另外,电子设备100可以识别由用户发出的用户语音并理解该语言。电子设备100可以基于所识别的内容数据的上下文或所识别的用户语音来提供对应的任务。
当电子设备100管理输入的内容数据或与用户的对话并生成响应时,服务器200可以提供信息。另外,服务器200可以提供或更新在电子设备100中使用的上下文模型、语言模型或信息本体。如上所述,电子设备100和服务器200可以彼此互锁并提供智能检索功能。
作为另一示例,电子设备100可以仅扮演仅接收内容数据并提供指南的输入/输出设备的角色。或者,电子设备100可以仅扮演仅接收用户语音并提供指南的输入/输出设备的角色。在这种情况下,服务器200可以被实施为处理大多数智能检索服务。
下面将描述智能检索服务的具体实施例。
图6是用以解释根据本公开的实施例的提取数据关键词的过程的示图。
参考图6,示出了从句子提取子关键词的过程。电子设备100接收内容数据的输入。例如,输入的内容数据可以是音频数据。电子设备100可以将输入的音频数据转换为文本数据。电子设备100可以存储转换后的文本数据。也就是说,电子设备可以将音频格式的内容数据转换为文本格式的内容数据,并且存储内容数据。
电子设备100可以将内容数据划分为句子。电子设备100可以针对每个句子提取第一词11。电子设备100可以通过参考提取的第一词11的相关性和上下文来提取第二词13。另外,可以通过参考提取的至少一个第二词13和上下文来提取域关键词15。电子设备100可以通过参考域关键词15、提取的第一词11、第二词13等来提取子关键词。例如,域关键词可以是句子的关键词。另外,子关键词可以是在与域关键词类似的环境中使用的词、在其中使用域关键词的上下文中使用的词或与域关键词的含义相关的词、域关键词的同义词、和另一子关键词等。
如上所述,由电子设备100提取域关键词和子关键词的过程可以通过机器学习、言语识别、句子分析、包括深度学习的上下文感知等的过程而执行。电子设备100可以通过机器学习等的过程建立数据识别模型,并且使用所建立的数据识别模型来提取域关键词和子关键词。另外,可以考虑识别模型的应用领域、学习的目标、设备的计算机性能等来建立数据识别模型。例如,数据识别模型可以是基于神经网络的模型。例如,诸如深度神经网络(DNN)、递归神经网络(RNN)和双向递归深度神经网络(BRDNN)的模型可以用作数据识别模型。
图7是用以解释根据本公开的实施例的分析数据关键词的过程的示图。
参考图7,示出了示出根据时间轴的域关键词的频率的示图。内容数据可以是关于特定主题的故事,并且可以包括大量句子。另外,域关键词是句子的关键词,因此,一个内容数据可以包括相同的域关键词。
电子设备100可以根据时间轴来对准和分析域关键词。电子设备100可以基于域关键词随时间的频率进行时间分组。另外,可以标记提取的关键的关键词。
也就是说,电子设备100可以根据域关键词的频率进行时间分组,并且标记分组的时间组内的域关键词、和与域关键词相关的子关键词。例如,电子设备100可以将第一域关键词确定为第一时间组中的关键的关键词。另外,电子设备100可以将第一时间组的开始时间和持续时间设置为时间戳。另外,可以标记与第一域相关的至少一个子关键词。同时,相同组中的子关键词可能具有频率差异。因此,电子设备100可以将权重应用于子关键词。例如,第一时间组的关键的关键词可以是第一域关键词,并且与第一域关键词相关的子关键词可以分别为1-1域关键词和1-2子关键词。另外,当1-1子关键词的频率为60%且1-2子关键词的频率为40%时,电子设备100可以将权重6设置到1-1子关键词并将权重4设置到1-2子关键词。
或者,电子设备100可以使用机器学习过程来计算时间组、域关键词和子关键词之间的距离。域关键词和子关键词之间的距离可以表示基于句子或段落的上下文的域关键词和子关键词之间的相对相关性。例如,可以将与第一域关键词直接相关的子关键词设置为靠近第一域关键词,并且可以将添加到第一域关键词的子关键词设置为远离第一域关键词。另外,关键词之间的距离可以通过数值而数值化表示。也就是说,当第一域关键词和1-1子关键词之间的距离是4并且第一域关键词和1-2子关键词之间的距离是2时,电子设备100可以将权重2设置到1-1子关键词,并且将权重4设置到1-2子关键词。也就是说,电子设备100可以基于内容数据的上下文、数据关键词的频率等来为数据关键词分配权重。
另外,电子设备100可以从内容数据当中提取与域关键词和子关键词相关的部分的时间戳。电子设备100可以存储音频内容数据、文本内容数据、主题、域关键词、子关键词、权重、时间戳等。
此后,当输入用户命令时,电子设备100可以分析输入的用户命令并获取命令关键词。由电子设备100获取命令关键词的过程可以通过诸如机器学习、言语识别和包括深度学习的上下文感知的人工智能功能而执行。电子设备100可以获取至少一个命令关键词。另外,电子设备100可以为所获取的命令关键词分配权重。电子设备100可以识别与命令关键词匹配的数据关键词。另外,电子设备100可以基于所识别的数据关键词的权重和命令关键词的权重来计算得分。
电子设备100可以基于计算的得分来识别具有最高得分的数据关键词。另外,电子设备100可以基于与所识别的数据关键词对应的时间戳来播放内容数据。
图8是用以解释根据本公开的实施例的时间戳映射到其的数据关键词的示图。
参考图8,示出了存储在电子设备100中的数据结构的实施例。如上所述,电子设备100可以存储内容数据、关键词、时间戳等。例如,存储在电子设备100中的文件数据可以包括标题、音频数据和字幕数据。标题包括文件数据的信息。另外,音频数据指的是内容数据。在字幕数据中,可以存储诸如域关键词、子关键词、时间戳等的信息。
在实施例中,时间戳可以包括时间组的开始时间、持续时间和索引号。开始时间指的是开始来自整个内容数据当中的对应片段的时间。持续时间是指对应片段的持续时间。索引号是指存储的片段的序列号。
时间戳可以包括域关键词和子关键词。另外,域关键词和子关键词可以存储为用包括对应关键词的存储的片段的索引号标记。例如,当第一域关键词用索引号1和3而标记时,这意味着第一域关键词被包括在与索引号1和3对应的时间组中。另外,根据用户命令,电子设备100基于关键词和索引号播放对应部分的内容数据。
同时,电子设备100可以基于存储的文件结构向用户显示可视数据结构图。
图9是用以解释根据本公开的实施例的在可视图表中表示的数据关键词的示图。
参考图9,示出了可视图表。存储在电子设备100中的文件结构如图8中所述。电子设备100可以确定域关键词和子关键词之间的连接关系。另外,电子设备100可以在显示器上将域关键词和子关键词显示为可视图表。
如图9所示,可以存在作为整个内容数据的关键的关键词的主关键词。另外,可以存在与主域关键词相关的至少一个域关键词。另外,每个域关键词可以包括至少一个子关键词。根据情况,子关键词可以包括第二子关键词作为下层。
在实施例中,电子设备100可以显示与主域关键词相关的域关键词,并且显示与域关键词相关的子关键词。另外,电子设备100可以在参考右上端以顺时针方向旋转的同时,以时间次序排列域关键词和子关键词。电子设备100可以以相同的方式排列域关键词内的子关键词。以上述方式,电子设备100可以基于域关键词和子关键词在可视图表上显示内容数据的结构。
同时,电子设备100可以在可视图表上接收用户命令的输入并执行对应任务。
图10是用以解释根据本公开的实施例的使用可视图表选择内容数据的特定部分的过程的示图。
参考图10,示出了在显示的域关键词上接收用户命令的示图。电子设备100可以显示包括域关键词和子关键词的内容数据结构。另外,各个域关键词和子关键词可以从用户接收选择命令的输入。当用户选择第一域关键词时,电子设备100可以播放与所选择的第一域关键词的第一索引号对应的内容数据。或者,当用户选择第一域关键词的第一子关键词时,电子设备100可以播放与所选择的第一子关键词的第一索引号对应的内容数据。电子设备100可以基于与索引号对应的时间戳来播放内容数据。
也就是说,当接收关于被包括在可视图表中的数据关键词的选择命令的输入时,电子设备100可以基于与所选择的数据关键词对应的时间戳来播放内容数据。同时,电子设备100可以以与用户的语音输入和可视图表上的输入方法不同的方式播放内容数据。
图11a至图11c是用以解释根据本公开的实施例的通过检索功能播放内容数据的过程的示图。
参考图11a,示出了电子设备100的屏幕。电子设备100可以显示屏幕以播放存储的内容数据。当选择普通播放、倒带或快进按钮时,电子设备100可以执行对应任务。另外,电子设备100可以包括诸如片段重复、播放速度控制等的菜单,并且当输入选择命令时,执行对应任务。
电子设备100还可以包括搜索菜单。当由用户选择搜索菜单时,电子设备100可以显示内容数据的域关键词。或者,电子设备100可以使用搜索菜单执行从另一屏幕到内容数据的关键词显示屏幕的切换。
参考图11b,示出了以列表形式显示存储的内容数据的电子设备100。电子设备100还可以在以列表形式显示内容数据的屏幕上显示搜索菜单。当选择搜索菜单时,电子设备100可以将当前屏幕切换到用以显示内容数据的域关键词的屏幕。
参考图11c,示出了显示域关键词的电子设备100。电子设备100可以显示域关键词列表、或一个域关键词和被包括在其中的子关键词。当用户在显示的屏幕上输入预设命令时,电子设备100可以播放对应的内容数据。
在实施例中,电子设备100可以基于用户搜索显示与特定域关键词相关的屏幕。用户可以长时间在屏幕上输入触摸命令。电子设备100可以播放与屏幕上显示的域关键词对应的内容数据。
以上述方式,电子设备100可以容易地播放与域关键词或子关键词对应的内容数据。
以上描述了电子设备100的各种实施例。下面将描述电子设备的控制方法。
图12是根据本公开的实施例的电子设备的控制方法的流程图。
在操作S1210处,电子设备接收并存储内容数据。例如,内容数据可以是音频数据。另外,电子设备可以将输入的音频数据转换为文本数据并存储转换后的文本数据。
在操作S1220处,电子设备分析输入的内容数据并获取多个数据关键词。数据关键词可以包括域关键词和子关键词。域关键词可以是被包括在内容数据中的句子的主题词。子关键词可以包括类似于域关键词的词、与域关键词相关的词、被包括在与域关键词相关的另一句子中的词等。电子设备可以基于内容数据的上下文或数据关键词的频率中的至少一个来为数据关键词分配权重。
在操作S1230处,电子设备匹配并存储内容数据的、分别与多个所获取的关键词对应的时间戳。在操作S1240处,基于输入的用户命令,电子设备在存储的数据关键词当中搜索与输入的用户命令对应的数据关键词。电子设备可以分析用户命令并获取命令关键词,并且为所获取的命令关键词分配权重。电子设备可以识别与命令关键词匹配的数据关键词。另外,电子设备可以基于所识别的数据关键词的权重和命令关键词的权重来计算得分。电子设备可以基于计算的得分来搜索具有最高得分的数据关键词。
在操作S1250处,电子设备可以基于与搜索到的数据关键词对应的时间戳来播放内容数据。同时,电子设备可以基于域关键词和子关键词在可视图表上显示音频数据的结构。也就是说,当接收关于被包括在可视图表中的数据关键词的选择命令的输入时,电子设备100可以基于与所选择的数据关键词对应的时间戳来播放内容数据。或者,用户可以通过存储的内容数据列表屏幕等中的检索功能选择一个数据关键词,并且电子设备可以基于与所选择的数据关键词对应的时间戳来播放内容数据。
图13和图14是根据本公开的各种实施例的利用数据识别模型的网络系统的序列图。
在图13和图14中,使用所学习的人工智能模型的网络系统可以包括第一元件1301和1401、第二元件1302和1402以及第三元件1403中的至少两个。
这里,第一元件1301和1401可以是电子设备100,第二元件1302和1402可以是其中存储文本概要模型的服务器200。或者,第一元件1301和1401可以是通用处理器,第二元件1302和1402可以是专用于人工智能的处理器。或者,第一元件1301和1401可以是至少一个应用,第二元件1302和1402可以是操作系统(OS)。也就是说,第二元件1302和1402可以是比第一元件1301和1401更集成、更专用、延迟更小、性能更好或具有更多资源的元件,可以是与第一元件1301和1401相比能够快速有效地处理生成、更新或应用文档概要模型所需的大量计算的元件。
在这种情况下,可以定义用于在第一元件1301和1401与第二元件1302和1402之间发送和接收数据的接口。
例如,可以定义具有要作为因子值(或中介值或转移值)而应用于文档概要模型的学习数据的应用程序接口(Application Program Interface,API)。API可以被定义为一组子例程或函数,其中该一组子例程或函数可以从任何一个协议(例如,在电子设备100中定义的协议)针对另一协议(例如,在服务器中定义的协议)的某个处理而调用。也就是说,通过API,可以提供其中可以在任何一个协议中执行另一协议的任务的环境。
同时,第三元件1403可以从第一元件1401和第二元件1402中的至少一个接收用户命令,并且从所接收的用户命令获取并提供命令关键词。
在实施例中,在图13中,在操作S1310处,第一元件1301可以接收内容数据并将其存储。在这种情况下,内容数据可以是包括音频数据的数据。
在操作S1320处,第一元件1301可以显示UI。在这种情况下,UI是用于搜索内容数据的特定时间点的UI,其可能请求用户说话。
在操作S1330处,第一元件1301可以接收用户命令。在这种情况下,通过UI输入的用户命令可以是被包括在内容数据中的关键词中的一个。然而,示例不限于此,甚至在第二元件1302中,不被包括在内容数据中的关键词也可以扩展为被包括在内容数据中的关键词,稍后将对其进行描述。
在操作S1340处,第一元件1301可以将内容数据和用户命令发送到第二元件1302。
第二元件1302可以分析内容数据并获取多个数据关键词。具体地,第二元件1302可以基于所学习的数据识别模型从内容数据获取多个数据关键词。
在操作S1360处,第二元件1302可以匹配并存储内容数据的、分别与多个所获取的关键词对应的时间戳。
另外,在操作S1370处,第二元件1302可以在存储的数据关键词当中搜索与用户命令对应的数据关键词。这里,与用户命令对应的数据关键词不仅可以包括与用户命令相同的数据关键词,还可以包括与用户命令相关的数据关键词。
在操作S1380处,第二元件1302可以发送搜索到的关键词和对应时间戳。
在操作S1390处,第一元件1301可以基于与搜索到的数据关键词对应的时间戳来播放内容数据。
在另一实施例中,在图14中,第一元件1401可以在操作S1405处接收内容数据并将其存储,并且在操作S1410处显示UI。另外,第一元件1401可以在操作S1415处通过UI接收用户命令,并且在操作S1420处将内容数据和用户命令发送到第二元件1402。图14的操作S1405至S1420对应于图13的操作S1310至S1340的操作,因此省略其重复描述。
在操作S1425处,第二元件1402可以将用户命令发送到第三元件1403。
在操作S1460处,第三元件1403可以分析用户命令并接收命令关键词。例如,第三元件1403可以提取被包括在用户命令中的名词,并且基于所学习的用户命令分析模型从提取的名词获取与用户命令对应的命令关键词。这里,用户命令分析模型是由第三元件1403学习的模型,并且第三元件1403可以学习能够从用户命令导出最适合的命令关键词的用户命令分析模型,并且基于提取的命令关键词的使用来更新用户命令分析模型。
在操作S1435处,第三元件1403可以将命令关键词发送到第二元件1402。
第二元件1402可以在操作S1440处分析内容数据并获取多个数据关键词,并且在操作S1445处识别与命令关键词匹配的数据关键词。
另外,在操作S1450处,第二元件1402可以为命令关键词和数据关键词分配权重。例如,第二元件1402可以基于内容数据内的数据关键词的频率来为数据关键词分配权重。另外,第二元件1402可以基于命令关键词和数据关键词的匹配程度来为命令关键词分配权重。也就是说,与数据关键词与命令关键词不相同但是相关时相比,当命令关键词与数据关键词完全相同时,第二元件1402可以分配更高的权重。
另外,第二元件1402可以在操作S1455处基于命令关键词的权重和数据关键词的权重来计算得分,并且在操作S1460处将数据关键词以及对应时间戳和得分发送到第一元件1401。
第一元件1401可以基于与具有最高得分的数据关键词对应的时间戳来播放内容数据。然而,示例不限于此,并且第一元件1401可以基于与具有最高得分的数据关键词对应的时间戳来播放内容数据,并且在一侧提供不具有最高得分的另一数据关键词。在这种情况下,用户可以选择与他或她的意图对应的其他数据关键词中的一个,并且基于与所选择的另一数据关键词对应的时间戳来控制内容数据被播放。在这种情况下,第一元件1401可以向第二元件1402和第三元件1403提供改变的播放信息,并且第二元件1402和第三元件1403可以分别基于所接收的信息更新数据识别模型和用户命令分析模型。
电子设备的控制方法可以被实施为程序并存储在非暂时性计算机可读介质中。
非暂时性计算机可读介质是指半永久性地存储数据并且是机器可读的介质,而不是诸如寄存器、高速缓存、存储器等的短时间存储数据的介质。具体地,上述各种应用或程序可以存储并提供在非暂时性计算机可读介质中,诸如光盘(Compact Disk,CD)、数字通用光盘(Digital Versatile Disk,DVD)、硬盘、蓝光光盘、通用串行总线(Universal SerialBus,USB)、存储卡、只读存储器(Read Only Memory,ROM)等,但不限于此。
另外,尽管前述实施例示出和描述了优选实施例,但是本公开不限于上述特定实施例,并且在不超出本公开的主旨的情况下,本发明所属领域的技术人员可以进行各种修改和变化,并且这些修改和变化不应单独地从本公开的技术构思或视点来解释。

Claims (15)

1.一种电子设备,包括:
输入单元,用于接收内容数据;
存储器,用于存储关于内容数据的信息;
音频输出单元,用于输出内容数据;以及
处理器,通过分析输入的内容数据来获取多个数据关键词,
匹配并存储内容数据的、分别与多个所获取的关键词对应的时间戳,
基于输入的用户命令,在存储的数据关键词当中搜索与输入的用户命令对应的数据关键词,以及
基于与搜索到的数据关键词对应的时间戳来播放内容数据。
2.如权利要求1所述的电子设备,其中,所述处理器基于内容数据的上下文或数据关键词的频率中的至少一个来为数据关键词分配权重。
3.如权利要求2所述的电子设备,其中,所述处理器分析输入的用户命令并获取命令关键词,为所获取的命令关键词分配权重,识别与命令关键词匹配的数据关键词,基于所识别的数据关键词的权重和命令关键词的权重来计算得分,基于计算的得分来搜索具有最高得分的数据关键词,并且基于与搜索到的数据关键词对应的时间戳来播放内容数据。
4.如权利要求1所述的电子设备,其中,所述数据关键词包括域关键词和子关键词。
5.如权利要求4所述的电子设备,其中,所述域关键词包括被包括在内容数据中的句子的主题词。
6.如权利要求4所述的电子设备,其中,所述子关键词包括域关键词的相似词、域关键词的相关词和被包括在与域关键词相关的另一句子中的词中的至少一个。
7.如权利要求4所述的电子设备,还包括:
显示器,用于基于域关键词和子关键词在可视化图表中显示内容数据的结构。
8.如权利要求7所述的电子设备,其中,如果输入关于被包括在可视化图表中的数据关键词的选择命令,则所述处理器基于与所选择的数据关键词对应的时间戳来播放内容数据。
9.一种电子设备的控制方法,所述控制方法包括:
接收并存储内容数据;
分析输入的内容数据,以便获取多个数据关键词;
匹配并存储内容数据的、分别与多个所获取的关键词对应的时间戳;
基于输入的用户命令,在存储的数据关键词当中搜索与输入的用户命令对应的数据关键词;以及
基于与搜索到的数据关键词对应的时间戳来播放内容数据。
10.如权利要求9所述的电子设备的控制方法,还包括:
基于内容数据的上下文或数据关键词的频率中的至少一个来为数据关键词分配权重。
11.如权利要求10所述的电子设备的控制方法,其中,搜索数据关键词包括:分析输入的用户命令并获取命令关键词,为所获取的命令关键词分配权重,识别与命令关键词匹配的数据关键词,基于所识别的数据关键词的权重和命令关键词的权重来计算得分,基于计算的得分来搜索具有最高得分的数据关键词,以及基于与搜索到的数据关键词对应的时间戳来播放内容数据。
12.如权利要求1所述的电子设备的控制方法,其中,所述数据关键词包括域关键词和子关键词。
13.如权利要求12所述的电子设备的控制方法,其中,所述域关键词包括被包括在内容数据中的句子的主题词。
14.如权利要求12所述的电子设备的控制方法,其中,所述子关键词包括域关键词的相似词、域关键词的相关词和被包括在与域关键词相关的另一句子中的词中的至少一个。
15.如权利要求12所述的电子设备的控制方法,还包括基于域关键词和子关键词在可视化图表中显示内容数据的结构。
CN201880019396.0A 2017-03-20 2018-01-22 电子设备和控制方法 Pending CN110431547A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR10-2017-0034600 2017-03-20
KR20170034600 2017-03-20
KR1020170125802A KR102529262B1 (ko) 2017-03-20 2017-09-28 전자 장치 및 제어 방법
KR10-2017-0125802 2017-09-28
PCT/KR2018/000947 WO2018174397A1 (ko) 2017-03-20 2018-01-22 전자 장치 및 제어 방법

Publications (1)

Publication Number Publication Date
CN110431547A true CN110431547A (zh) 2019-11-08

Family

ID=63877452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880019396.0A Pending CN110431547A (zh) 2017-03-20 2018-01-22 电子设备和控制方法

Country Status (3)

Country Link
EP (1) EP3550454A4 (zh)
KR (1) KR102529262B1 (zh)
CN (1) CN110431547A (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102185733B1 (ko) * 2018-11-29 2020-12-04 알리콘 주식회사 프로필 자동생성서버 및 방법
US20210096813A1 (en) * 2019-10-01 2021-04-01 Blackberry Limited Intelligent recording and action system and method
US11996094B2 (en) * 2020-07-15 2024-05-28 Google Llc Automated assistant with audio presentation interaction
KR102357313B1 (ko) * 2021-04-05 2022-02-08 주식회사 비욘드더드림 비디오 콘텐츠에 포함된 오디오 데이터를 기반으로 색인어를 설정하는 전자 장치의 콘텐츠 인덱싱 방법
CN115482809B (zh) * 2022-09-19 2023-08-11 北京百度网讯科技有限公司 关键词检索方法、装置、电子设备以及存储介质
KR102610999B1 (ko) * 2023-09-04 2023-12-07 라이트하우스(주) 인공지능 기반 데이터베이스화된 동영상 강의의 검색 및 추천 서비스 제공 방법, 장치 및 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382937A (zh) * 2008-07-01 2009-03-11 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
CN103365849A (zh) * 2012-03-27 2013-10-23 富士通株式会社 关键词检索方法和设备
CN103699625A (zh) * 2013-12-20 2014-04-02 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置
CN103956166A (zh) * 2014-05-27 2014-07-30 华东理工大学 一种基于语音关键词识别的多媒体课件检索系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0715369D0 (en) * 2007-08-07 2007-09-19 Aurix Ltd Methods and apparatus relating to searching of spoken audio data
KR101156934B1 (ko) * 2009-10-05 2012-06-20 에스케이플래닛 주식회사 키워드가 삽입된 녹음파일 생성 및 재생 방법과 그 휴대기기
KR20110053397A (ko) * 2009-11-15 2011-05-23 에스케이텔레콤 주식회사 검색 키워드를 이용한 멀티미디어 파일 검색 방법 및 그 휴대기기
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
KR101536520B1 (ko) * 2014-04-28 2015-07-14 숭실대학교산학협력단 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
KR101590078B1 (ko) * 2014-11-27 2016-02-01 성균관대학교산학협력단 음성 아카이빙 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382937A (zh) * 2008-07-01 2009-03-11 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
CN103365849A (zh) * 2012-03-27 2013-10-23 富士通株式会社 关键词检索方法和设备
CN103699625A (zh) * 2013-12-20 2014-04-02 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置
CN103956166A (zh) * 2014-05-27 2014-07-30 华东理工大学 一种基于语音关键词识别的多媒体课件检索系统

Also Published As

Publication number Publication date
KR102529262B1 (ko) 2023-05-08
EP3550454A1 (en) 2019-10-09
EP3550454A4 (en) 2019-12-11
KR20180106817A (ko) 2018-10-01

Similar Documents

Publication Publication Date Title
CN108288468B (zh) 语音识别方法及装置
CN108304846B (zh) 图像识别方法、装置及存储介质
US11302337B2 (en) Voiceprint recognition method and apparatus
CN110431547A (zh) 电子设备和控制方法
US11769492B2 (en) Voice conversation analysis method and apparatus using artificial intelligence
US11488576B2 (en) Artificial intelligence apparatus for generating text or speech having content-based style and method for the same
US11511436B2 (en) Robot control method and companion robot
KR102666316B1 (ko) 전자 장치 및 제어 방법
US9529898B2 (en) Clustering classes in language modeling
US8738375B2 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
WO2019046463A1 (en) SYSTEM AND METHOD FOR THE DEFINITION OF DIALOGUE INTENTIONS AND THE CONSTRUCTION OF INTENTION RECOGNITION MODELS WITHOUT PRIOR KNOWLEDGE
US10803850B2 (en) Voice generation with predetermined emotion type
US10521723B2 (en) Electronic apparatus, method of providing guide and non-transitory computer readable recording medium
KR102484257B1 (ko) 전자 장치, 그의 문서 표시 방법 및 비일시적 컴퓨터 판독가능 기록매체
US20210151039A1 (en) Method and apparatus for speech interaction, and computer storage medium
CN110462676A (zh) 电子装置、其控制方法和非暂态计算机可读记录介质
US11393465B2 (en) Artificial intelligence apparatus for speech interaction and method for the same
US11568853B2 (en) Voice recognition method using artificial intelligence and apparatus thereof
CN115082602B (zh) 生成数字人的方法、模型的训练方法、装置、设备和介质
US20180218728A1 (en) Domain-Specific Speech Recognizers in a Digital Medium Environment
CN113505198B (zh) 关键词驱动的生成式对话回复方法、装置及电子设备
CN110795913A (zh) 一种文本编码方法、装置、存储介质及终端
CN108345612A (zh) 一种问题处理方法和装置、一种用于问题处理的装置
CN110019777A (zh) 一种信息分类的方法及设备
CN109741735A (zh) 一种建模方法、声学模型的获取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination