CN113051888A - 文本样本的生成方法、终端设备以及计算机可读存储介质 - Google Patents

文本样本的生成方法、终端设备以及计算机可读存储介质 Download PDF

Info

Publication number
CN113051888A
CN113051888A CN202110276252.7A CN202110276252A CN113051888A CN 113051888 A CN113051888 A CN 113051888A CN 202110276252 A CN202110276252 A CN 202110276252A CN 113051888 A CN113051888 A CN 113051888A
Authority
CN
China
Prior art keywords
slot position
position value
text
slot
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110276252.7A
Other languages
English (en)
Inventor
李雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202110276252.7A priority Critical patent/CN113051888A/zh
Publication of CN113051888A publication Critical patent/CN113051888A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephone Function (AREA)

Abstract

本发明实施例公开了一种文本样本的生成方法、文本样本生成装置以及终端设备,用于终端设备能够提高获取槽位的准确率,以得到完整度较高的文本样本。本发明实施例方法包括:获取样本规则,以及所述样本规则的槽位值;根据所述槽位值,获取所述槽位值对应的槽位值词典;根据所述槽位值词典,获取所述槽位值词典对应的槽位;根据所述槽位值和所述槽位,得到文本;将所述文本和预设句式进行结合,得到文本样本。

Description

文本样本的生成方法、终端设备以及计算机可读存储介质
技术领域
本发明涉及终端设备应用领域,尤其涉及一种文本样本的生成方法、终端设备以及计算机可读存储介质。
背景技术
随着科技的迅速发展,在互联网大数据背景下的产品和数据都是非常重要的。其中,数据的好坏以及数据量的大小往往可以决定终端设备中算法模型的上限。然而,终端设备获取数据的方式常常是费时费力的,与此同时,该终端设备也不能够获取完整度较高的数据。
目前,在语音助手方面,由于现阶段业内还没有一个较好的获取用户反馈的方式来形成终端设备的闭环,所以无法从终端设备的产品日志中获取大量的标注数据。其中,终端设备获取数据的方式可以是从产品日志中获取大量的用户数据,然后采用人工标注该用户数据的方式,也可以是从现有的网络上获取已经公开的数据集的方式。但是,无论是哪种方式,终端设备都会存在获取槽位的准确率较低的问题,从而导致该终端设备获取的数据不够完整。
发明内容
本发明实施例提供了一种文本样本的生成方法、终端设备以及计算机可读存储介质,用于终端设备能够提高获取槽位的准确率,以得到完整度较高的文本样本。
本发明实施例第一方面提供了一种文本样本的生成方法,可以包括:
获取样本规则,以及该样本规则的槽位值;
根据该槽位值,获取该槽位值对应的槽位值词典;
根据该槽位值词典,获取该槽位值词典对应的槽位;
根据该槽位值和该槽位,得到文本;
将该文本和预设句式进行结合,得到文本样本。
可选的,该预设句式包括文本称呼、文本前缀以及文本后缀。
本发明实施例第二方面提供了一种终端设备,可以包括:
获取模块,用于获取样本规则,以及该样本规则的槽位值;根据该槽位值,获取该槽位值对应的槽位值词典;根据该槽位值词典,获取该槽位值词典对应的槽位;
处理模块,用于根据该槽位值和该槽位,得到文本;将该文本和预设句式进行结合,得到文本样本。
本发明实施例第三方面提供了一种终端设备,可以包括:
存储有可执行程序代码的存储器;
以及该存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,所述可执行程序代码被所述处理器执行时,使得所述处理器实现如本发明实施例第一方面所述的方法。
本发明实施例第四方面提供一种计算机可读存储介质,其上存储有可执行程序代码,所述可执行程序代码被处理器执行时,实现如本发明实施例第一方面所述的方法。
本发明实施例第五方面公开一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得该计算机执行本发明实施例第一方面公开的任意一种所述的方法。
本发明实施例第六方面公开一种应用发布平台,该应用发布平台用于发布计算机程序产品,其中,当该计算机程序产品在计算机上运行时,使得该计算机执行本发明实施例第一方面公开的任意一种所述的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
在本发明实施例中,获取样本规则,以及所述样本规则的槽位值;根据所述槽位值,获取所述槽位值对应的槽位值词典;根据所述槽位值词典,获取所述槽位值词典对应的槽位;根据所述槽位值和所述槽位,得到文本;将所述文本和预设句式进行结合,得到文本样本。即终端设备可以根据样本规则、该样本规则的槽位值、该槽位值对应的槽位值词典、该槽位值词典对应的槽位,得到文本;该终端设备可以根据该文本和预设句式,进而得到文本样本。这种方法使得终端设备能够提高获取槽位的准确率,以得到完整度较高的文本样本。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,还可以根据这些附图获得其它的附图。
图1a为本发明实施例中文本样本的生成方法的一个实施例示意图;
图1b为本发明实施例中正样本规则的一个实施例示意图;
图1c为本发明实施例中人名生成器的一个实施例示意图;
图1d为本发明实施例中预设句式的一个实施例示意图;
图1e为本发明实施例中文本样本的生成方法的另一个实施例示意图;
图2为本发明实施例中文本样本的生成方法的另一个实施例示意图;
图3为本发明实施例中终端设备的一个实施例示意图;
图4为本发明实施例中终端设备的另一个实施例示意图。
具体实施方式
本发明实施例提供了一种文本样本的生成方法、终端设备以及计算机可读存储介质,用于终端设备能够提高获取槽位的准确率,以得到完整度较高的文本样本。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,都应当属于本发明保护的范围。
在现有技术中,终端设备对数据的获取方式有两种。第一种获取方式是终端设备从产品日志中获取大量的用户数据,然后采用人工标注该用户数据。第一种获取方式使得终端设备可以获取质量较高的用户数据,但是该终端设备在对这些用户数据进行序列标注的过程中,由于该过程较为复杂,标注率较低且标注成本很高,所以,第一种获取方式很难满足模型训练时所需的用户数据量,以及很难跟得上终端设备在优化迭代时的更新速度。
第二种获取方式是终端设备从现有的网络上获取已经公开的数据集。目前,在对话领域中所公开的数据集是比较小的,并且所涉及的领域范围也是比较小的。除此以外,有部分数据集在网络上也是不存在的,例如:终端设备的部分槽位涉及到跟该终端设备强绑定的知识部分在网络上是不存在的。
但是,这两种方式都使得终端设备会存在获取槽位的准确率较低的问题,从而导致该终端设备获取的数据不够完整。可以理解的是,槽位可以是句式上下文中的关键字,如“查看小号的电话号码”,其中,“号”字经常和“号码”一起以O的形式出现在训练语料中,当“小号”成为槽位内容,即槽位值时,如果终端设备在训练语料中未给模型提供“号”字出现在槽位的信息,那么,会容易出现号字未召回的情况。除此以外,由于训练语料中的槽位长度固化,所以会导致终端设备在预测槽位时出现截断的情况。在通讯技能组内,训练语料中的人名大多以大于等于2个字的形式出现,如果终端设备在该训练语料中未给模型,提供槽位值中可能存在的比较长的特征,那么,当样本规则中出现新疆、西藏等地区的长人名时,会容易出现提前截断未召回的情况。
可以理解的是,本发明实施例中所涉及的终端设备可以包括一般的手持有屏电子终端设备,诸如手机、智能电话、便携式终端、终端、个人数字助理(Personal DigitalAssistant,PDA)、便携式多媒体播放器(Personal Media Player,PMP)装置、笔记本电脑、笔记本(Note Pad)、无线宽带(Wireless Broadband,Wibro)终端、平板电脑(PersonalComputer,PC)、智能PC、销售终端(Point of Sales,POS)和车载电脑等。
终端设备也可以包括可穿戴设备。可穿戴设备可以直接穿戴在用户身上,或是整合到用户的衣服或配件的一种便携式电子设备。可穿戴设备不仅仅是一种硬件设备,更可以通过软件支持以及数据交互、云端交互来实现强大的智能功能,比如:计算功能、定位功能、报警功能,同时还可以连接手机及各类终端。可穿戴设备可以包括但不限于以手腕为支撑的watch类(比如手表、手腕等产品),以脚为支撑的shoes类(比如鞋、袜子或者其他腿上佩戴产品),以头部为支撑的Glass类(比如眼镜、头盔、头带等)以及智能服装,书包、拐杖、配饰等各类非主流产品形态。
下面以实施例的方式,对本发明技术方案做进一步的说明,如图1a所示,为本发明实施例中文本样本的生成方法的一个实施例示意图,可以包括:
101、获取样本规则,以及所述样本规则的槽位值。
需要说明的是,样本规则可以是正样本规则,也可以是负样本规则,该样本规则的数量为至少一个。
其中,正样本规则指的是用户在其常用领域内可能会使用的说法,例如:常用领域为第一应用软件,该第一应用软件为短信应用软件,那么,正样本规则可以为“发送一条短信给用户A”,或,“发送一条内容为‘今天会下雨’的短信给用户B”。
可选的,如图1b所示,为本发明实施例中正样本规则的一个实施例示意图。其中,该正样本规则的数量为17个。
其中,负样本规则指的是用户在其常用领域以外的其它领域内可能会使用的说法,例如:其它领域为第二应用软件,该第二应用软件为通讯录应用软件(简称:通讯录),那么,负样本规则可以为“打开通讯录”。
可以理解的是,不同用户的样本规则可以是相同的,也可以是不同的。其中,用户C的正样本规则也可以是用户D的正样本规则,和/或,负样本规则,此处不做具体限定。
示例性的,用户C的正样本规则“发送一条短信给用户A”,可以是用户D的负样本规则。
需要说明的是,样本规则的槽位值可以是正样本规则的槽位值,也可以是负样本规则的槽位值,该槽位值的数量为至少一个。
其中,正样本规则的槽位值指的是正样本规则中会使用到的词及其泛化,即用户在其常用领域内可能会使用的说法中的关键词,以及该关键词相关的词。例如:常用领域为短信应用软件,那么,正样本规则的槽位值可以是“短信”,也可以是“短信息”。
负样本规则的槽位值指的是负样本规则中会使用到的词及其泛化,即用户在其它领域内可能会使用的说法中的关键词,以及该关键词相关的词。例如:其它领域为通讯录应用软件,那么,负样本规则的槽位值可以是“通讯录”,也可以是“电话簿”。
可选的,负样本的槽位值可以是终端设备通过复制正样本的槽位值得到的。
102、根据所述槽位值,获取所述槽位值对应的槽位值词典。
可选的,终端设备根据该槽位值,获取该槽位值对应的槽位值词典,可以包括但不限于以下实现方式:
实现方式1:当槽位值包括第一槽位值时,终端设备统计该样本规则中带有该第一槽位值的高频词,其中,该高频词的出现次数大于预设次数阈值;该终端设备将该高频词与随机字进行组合,生成该第一槽位值对应的第一槽位值词典。
需要说明的是,终端设备可以从结巴(Jieba)库中,统计该样本规则中带有该第一槽位值的高频词。
其中,Jieba库是中文分词第三方库,该Jieba库将中文文本进行分词,以获得单个的词语。该Jieba库的分词原理为利用一个中文词库,确定该中文文本中汉字之间的关联概率;将该汉字之间概率大的目标汉字组成词组,形成分词结果。
示例性的,假设第一槽位值为“的”字。终端设备统计样本规则中带有“的”字的高频词(例如:该高频词可以是“的士”),将该高频词与随机字进行组合,生成该“的”字对应的第一槽位值词典。可以理解的是,第一槽位值词典是涉及与“的”字上下文相关的词典。
实现方式2:当槽位值包括第二槽位值时,终端设备根据该第二槽位值,通过生成器,生成该第二槽位值对应的第二槽位值词典。
其中,该第二槽位值指的是元素类型,该第二槽位值(即该元素类型)可以为人名、地名和时间中的至少一项;该第二槽位值对应的第二槽位值词典可以为该人名对应的人名词典、该地名对应的地名词典,以及该时间对应的时间词典中的至少一项,即该第二槽位值词典可以是不同元素类型分别对应的词典。
需要说明的是,该生成器可以是元素生成器,该元素生成器可以包括人名生成器、地名生成器和时间生成器中的至少一项,其中,元素生成器可以用于生成其对应的元素。
例如:人名生成器用于生成人名,该人名可以包括但不限于:人名中的姓氏、亲属的全名、不同应用软件中的网名。
可选的,如图1c所示,为本发明实施例中人名生成器的一个实施例示意图。
例如:地名生成器用于生成地名,该地名可以是人们赋予某一特定空间位置上自然或人文地理实体的专有名称。
实现方式3:终端设备将该槽位值、该第一槽位值词典、该第二槽位值词典和随机字词典进行组合,生成第三槽位值词典。
需要说明的是,随机字词典可以是随机字生成器生成的,该随机字词典中的随机字的数量为至少一个。
可以理解的是,第三槽位值词典是终端设备根据不同的词典,按照不同的组合方式,可以生成不同长度的第三槽位值词典。
103、根据所述槽位值词典,获取所述槽位值词典对应的槽位。
需要说明的是,槽位可以是槽位生成器生成的,其中,槽位与槽位值词典有一定的对应关系,该对应关系可以是一个槽位对应一个槽位值词典,可以是一个槽位对应多个不同的槽位值词典,也可以是多个槽位对应同一个槽位值词典,此处不做具体限定。
104、根据所述槽位值和所述槽位,得到文本。
可以理解的是,槽位与槽位值词典有一定的对应关系,该槽位值词典中有至少一个槽位值。终端设备根据槽位、槽位值词典和槽位值这三者之间的关系,可以得到槽位值和槽位也有一定的对应关系;该终端设备根据该对应关系,可以得到文本。
示例性的,假如动词词典对应第一槽位,应用软件词典对应第二槽位,那么,动词词典中包括第一槽位值“打开”,应用软件词典中包括第二槽位值“通讯录”,终端设备根据第一槽位值和第一槽位,以及第二槽位值和第二槽位,得到文本“打开通讯录”。
105、将所述文本和预设句式进行结合,得到文本样本。
其中,文本样本是终端设备内标准的数据文本,该文本样本的数量为至少一个。
可以理解的是,当终端设备获取的样本规则是正样本规则时,该终端设备得到的文本样本是文本正样本;当终端设备获取的样本规则是负样本规则时,该终端设备得到的文本样本是文本负样本。
需要说明的是,所述预设句式可以包括但不限于:文本称呼、文本前缀以及文本后缀。
其中,文本称呼可以是中文(例如:小布),也可以是英文(例如:breeno);文本前缀可以是询问词(例如:可不可以、能不能、你可不可以、你能不能);文本后缀可以是语气词(例如:呢,啊,呀,吧)。
示例性的,假设文本为“打开通讯录”,文本称呼为“小布”,文本前缀为“能不能”,文本后缀为“呀”。终端设备将文本、文本称呼、文本前缀和文本后缀进行结合,得到文本样本为“小布,能不能打开通讯录呀”。
可选的,如图1d所示,为本发明实施例中预设句式的一个实施例示意图。
需要说明的是,本发明实施例中文本样本的生成方法的执行主体也可以是文本样本生成装置。该文本样本生成装置可以分为两个模块:数据模块和策略模块,该数据模块用于管理系统的数据,该策略模块用于策略性地生成响应的训练数据,即策略性地生成生成文本样本。
可以理解的是,数据模块可以主要分为三个部分:必须输入部分,系统输入部分和选择性输入部分。必须输入部分可以包括正样本规则和正样本关键词(也可以称作正样本规则的槽位值),该必须输入部分是进行数据增强必须要提供的数据;系统输入部分是系统积累的数据资源,可以包括有常用词及其同义词关系,常见的实体词,常用的句式以及常用元素生成器;选择性输入部分是用户可以进行选择的输入数据,可以包括负样本规则和负样本关键词(也可以称作负样本规则的槽位值)。终端设备可以通过调整次序输入,以及可选择性输入部分数据数量和数据类型的多样性,以生成不同质量的训练数据,即文本样本,从而可以训练得到不同效果的模型。
可选的,如图1e所示,为本发明实施例中文本样本的生成方法的另一个实施例示意图。
在本发明实施例中,获取样本规则,以及所述样本规则的槽位值;根据所述槽位值,获取所述槽位值对应的槽位值词典;根据所述槽位值词典,获取所述槽位值词典对应的槽位;根据所述槽位值和所述槽位,得到文本;将所述文本和预设句式进行结合,得到文本样本。即终端设备可以根据样本规则、该样本规则的槽位值、该槽位值对应的槽位值词典、该槽位值词典对应的槽位,得到文本;该终端设备可以根据该文本和预设句式,进而得到文本样本。这种方法使得终端设备能够提高获取槽位的准确率,以得到完整度较高的文本样本。
如图2所示,为本发明实施例中文本样本的生成方法的另一个实施例示意图,可以包括:
201、获取样本规则,以及所述样本规则的槽位值。
202、根据所述槽位值,获取所述槽位值对应的槽位值词典。
203、根据所述槽位值词典,获取所述槽位值词典对应的槽位。
204、根据所述槽位值和所述槽位,得到文本。
205、将所述文本和预设句式进行结合,得到文本样本。
需要说明的是,步骤201-205与本实施例中图1所示的步骤101-105类似,此处不再赘述。
206、获取所述用户的语音信息。
需要说明的是,语音信息可以通过终端设备上的语音检测装置检测得到。
示例性的,语音信息为“小布,你可以打开通讯录吗”,终端设备通过语音检测装置检测得到“小布,你可以打开通讯录吗”这个语音信息。
步骤206之前,该方法还可以包括:终端设备检测用户所处环境的噪声分贝;在该噪声分贝大于当该分贝位于第一预设分贝范围内时,该终端设备获取该用户的语音信息。
需要说明的是,第一预设分贝范围是第一预设分贝阈值与第二预设分贝阈值构成的区间。分贝位于第一预设分贝范围内,即分贝大于第一预设分贝阈值,且小于等于第二预设分贝阈值。
示例性的,假设第一预设分贝阈值为60分贝(decibel,dB),第二预设分贝阈值为70dB,即预设分贝范围为(60dB,70dB)。终端设备检测用户所处环境的噪声分贝为63dB,该63dB位于(60dB,70dB)内,那么,该终端设备获取该用户的语音信息。
207、根据所述语音信息,从所述文本样本中获取目标文本样本。
可选的,终端设备根据该语音信息,从该文本样本中获取目标文本样本可以包括:终端设备获取该语音信息的分贝;当该分贝位于第二预设分贝范围内时,该终端设备从该文本样本中获取目标文本样本。
需要说明的是,第二预设分贝范围是第三预设分贝阈值与第四预设分贝阈值构成的区间。分贝位于第二预设分贝范围内,即分贝大于第三预设分贝阈值,且小于等于第三预设分贝阈值。其中,第二预设分贝范围与第一预设分贝范围可以相同或不同。
示例性的,假设第三预设分贝阈值为65dB,第四预设分贝阈值为75dB,即第二预设分贝范围为(65dB,75dB)。假如终端设备检测到“小布,你可以打开通讯录吗”这个语音信息的分贝为68dB,该68dB位于(65dB,75dB)内,那么,该终端设备从文本样本中获取目标文本样本,即获取“小布,你可以打开通讯录吗”。
208、根据所述目标文本样本,执行相应操作。
需要说明的是,目标文本样本与相应操作有一定的对应关系。每个目标文本样本都具有一个相应操作。其中,多个目标文本样本可以具有同一个相应操作。
示例性的,该相应操作可以包括但不限于:打开第一应用软件,打电话给用户A,发短信给用户B,播放音乐等。
示例性的,当目标文本样本为“播放音乐”或“打开音乐播放器”时,终端设备执行的相应操作都为“播放音乐”。
可选的,步骤208之后,该方法还可以包括:输出第一提示信息,该第一提示信息用于提示用户该相应操作完成。
可选的,终端设备输出第一提示信息,可以包括:终端设备以第一形式输出第一提示信息,该第一形式可以包括但不限于以下至少一项:灯光闪烁形式、振动形式、响铃形式和文字弹出形式。
可以理解的是,灯光闪烁形可以是相同或不同颜色的灯光按照第一预设时长进行闪烁的形式;振动形式可以是终端设备按照第二时长和/或预设次数进行振动的形式,该振动形式可以包括持续振动形式,也可以包括间接性振动形式;响铃形式可以是终端设备预置的铃声或用户根据自身爱好自定义铃声进行响动的形式;文字弹出形式可以是以气泡的形式弹出文字和/或以动画的形式弹出该文字。
示例性的,假设第一形式为红灯闪烁两秒,并持续振动两秒,相应操作为“发短信给用户B”。终端设备以红灯闪烁两秒,并持续振动两秒提示用户,该终端设备已经将短行向用户B发送。
在本发明实施例中,获取样本规则,以及所述样本规则的槽位值;根据所述槽位值,获取所述槽位值对应的槽位值词典;根据所述槽位值词典,获取所述槽位值词典对应的槽位;根据所述槽位值和所述槽位,得到文本;将所述文本和预设句式进行结合,得到文本样本;获取所述用户的语音信息;根据所述语音信息,从所述文本样本中获取目标文本样本;根据所述目标文本样本,执行相应操作。这种方法不仅使得终端设备能够提高获取槽位的准确率,以得到完整度较高的文本样本,而且能够增强该终端设备与用户之间的交互性。
如图3所示,为本发明实施例中终端设备的一个实施例示意图,可以包括:
获取模块301,用于获取样本规则,以及该样本规则的槽位值;根据该槽位值,获取该槽位值对应的槽位值词典;根据该槽位值词典,获取该槽位值词典对应的槽位;
处理模块302,用于根据该槽位值和该槽位,得到文本;将该文本和预设句式进行结合,得到文本样本。
可选的,在本发明的一些实施例中,
该预设句式包括文本称呼、文本前缀以及文本后缀。
可选的,在本发明的一些实施例中,该槽位值包括第一槽位值,
获取模块301,具体用于统计该样本规则中带有该第一槽位值的高频词,其中,该高频词的出现次数大于预设次数阈值;
处理模块302,具体用于将该高频词与随机字进行组合,生成该第一槽位值对应的第一槽位值词典。
可选的,在本发明的一些实施例中,该槽位值包括第二槽位值,
处理模块302,具体用于根据该第二槽位值,通过生成器,生成该第二槽位值对应的第二槽位值词典;其中,该第二槽位值为人名、地名和时间中的至少一项;该第二槽位值对应的第二槽位值词典为该人名对应的人名词典、该地名对应的地名词典,以及该时间对应的时间词典中的至少一项。
可选的,在本发明的一些实施例中,
处理模块302,还用于将该槽位值、该第一槽位值词典、该第二槽位值词典和随机字词典进行组合,生成第三槽位值词典。
可选的,在本发明的一些实施例中,
该样本规则的数量为至少一个,该文本样本的数量为至少一个。
可选的,在本发明的一些实施例中,
获取模块301,还用于获取该用户的语音信息;根据该语音信息,从该文本样本中获取目标文本样本;
处理模块302,还用于根据该目标文本样本,执行相应操作。
如图4所示,为本发明实施例中终端设备的另一个实施例示意图,图4示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图4,手机包括:射频(Radio Frequency,RF)电路410、存储器420、输入单元430、显示单元440、传感器450、音频电路460、无线保真(Wireless Fidelity,WiFi)模块470、处理器480、以及电源490等部件。本领域技术人员可以理解,图4中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图4对手机的各个构成部件进行具体的介绍:
RF电路410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器480处理;另外,将设计上行的数据发送给基站。通常,RF电路410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器420可用于存储软件程序以及模块,处理器480通过运行存储在存储器420的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元430可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元430可包括触控面板431以及其他输入设备432。触控面板431,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板431上或在触控面板431附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板431可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器480,并能接收处理器480发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板431。除了触控面板431,输入单元430还可以包括其他输入设备432。具体地,其他输入设备432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元440可包括显示面板441,可选的,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板441。进一步的,触控面板431可覆盖显示面板441,当触控面板431检测到在其上或附近的触摸操作后,传送给处理器480以确定触摸事件的类型,随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图4中,触控面板431与显示面板441是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板431与显示面板441集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器450,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板441的亮度,接近传感器可在手机移动到耳边时,关闭显示面板441和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路460、扬声器461,传声器462可提供用户与手机之间的音频接口。音频电路460可将接收到的音频数据转换后的电信号,传输到扬声器461,由扬声器461转换为声音信号输出;另一方面,传声器462将收集的声音信号转换为电信号,由音频电路460接收后转换为音频数据,再将音频数据输出处理器480处理后,经RF电路410以发送给比如另一手机,或者将音频数据输出至存储器420以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块470,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器480是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器420内的软件程序和/或模块,以及调用存储在存储器420内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器480可包括一个或多个处理单元;优选的,处理器480可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器480中。
手机还包括给各个部件供电的电源490(比如电池),优选的,电源可以通过电源管理系统与处理器480逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本发明实施例中,该终端设备所包括的处理器480还具有以下功能:
获取样本规则,以及该样本规则的槽位值;
根据该槽位值,获取该槽位值对应的槽位值词典;
根据该槽位值词典,获取该槽位值词典对应的槽位;
根据该槽位值和该槽位,得到文本;
将该文本和预设句式进行结合,得到文本样本。
可选的,处理器480还具有以下功能:
该预设句式包括文本称呼、文本前缀以及文本后缀。
可选的,处理器480还具有以下功能:该槽位值包括第一槽位值,
统计该样本规则中带有该第一槽位值的高频词,其中,该高频词的出现次数大于预设次数阈值;将该高频词与随机字进行组合,生成该第一槽位值对应的第一槽位值词典。
可选的,处理器480还具有以下功能:该槽位值包括第二槽位值,
根据该第二槽位值,通过生成器,生成该第二槽位值对应的第二槽位值词典;其中,该第二槽位值为人名、地名和时间中的至少一项;该第二槽位值对应的第二槽位值词典为该人名对应的人名词典、该地名对应的地名词典,以及该时间对应的时间词典中的至少一项。
可选的,处理器480还具有以下功能:
将该槽位值、该第一槽位值词典、该第二槽位值词典和随机字词典进行组合,生成第三槽位值词典。
可选的,处理器480还具有以下功能:
该样本规则的数量为至少一个,该文本样本的数量为至少一个。
可选的,处理器480还具有以下功能:
获取该用户的语音信息;根据该语音信息,从该文本样本中获取目标文本样本;根据该目标文本样本,执行相应操作。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文本样本的生成方法,其特征在于,包括
获取样本规则,以及所述样本规则的槽位值;
根据所述槽位值,获取所述槽位值对应的槽位值词典;
根据所述槽位值词典,获取所述槽位值词典对应的槽位;
根据所述槽位值和所述槽位,得到文本;
将所述文本和预设句式进行结合,得到文本样本。
2.根据权利要求1所述的方法,其特征在于,所述预设句式包括文本称呼、文本前缀以及文本后缀。
3.根据权利要求1所述的方法,其特征在于,所述槽位值包括第一槽位值,所述根据所述槽位值,获取所述槽位值对应的槽位值词典,包括:
统计所述样本规则中带有所述第一槽位值的高频词,其中,所述高频词的出现次数大于预设次数阈值;
将所述高频词与随机字进行组合,生成所述第一槽位值对应的第一槽位值词典。
4.根据权利要求3所述的方法,其特征在于,所述槽位值包括第二槽位值,所述根据所述槽位值,获取所述槽位值对应的槽位值词典,包括:
根据所述第二槽位值,通过生成器,生成所述第二槽位值对应的第二槽位值词典;
其中,所述第二槽位值为人名、地名和时间中的至少一项;所述第二槽位值对应的第二槽位值词典为所述人名对应的人名词典、所述地名对应的地名词典,以及所述时间对应的时间词典中的至少一项。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
将所述槽位值、所述第一槽位值词典、所述第二槽位值词典和随机字词典进行组合,生成第三槽位值词典。
6.根据权利要求1所述的方法,其特征在于,所述样本规则的数量为至少一个,所述文本样本的数量为至少一个。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取所述用户的语音信息;
根据所述语音信息,从所述文本样本中获取目标文本样本;
根据所述目标文本样本,执行相应操作。
8.一种终端设备,其特征在于,包括:
获取模块,用于获取样本规则,以及所述样本规则的槽位值;根据所述槽位值,获取所述槽位值对应的槽位值词典;根据所述槽位值词典,获取所述槽位值词典对应的槽位;
处理模块,用于根据所述槽位值和所述槽位,得到文本;将所述文本和预设句式进行结合,得到文本样本。
9.一种终端设备,其特征在于,包括:
存储有可执行程序代码的存储器;
以及所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,所述可执行程序代码被所述处理器执行时,使得所述处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有可执行程序代码,其特征在于,所述可执行程序代码被处理器执行时,实现如权利要求1-7中任一所述的方法。
CN202110276252.7A 2021-03-15 2021-03-15 文本样本的生成方法、终端设备以及计算机可读存储介质 Withdrawn CN113051888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110276252.7A CN113051888A (zh) 2021-03-15 2021-03-15 文本样本的生成方法、终端设备以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110276252.7A CN113051888A (zh) 2021-03-15 2021-03-15 文本样本的生成方法、终端设备以及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113051888A true CN113051888A (zh) 2021-06-29

Family

ID=76512226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110276252.7A Withdrawn CN113051888A (zh) 2021-03-15 2021-03-15 文本样本的生成方法、终端设备以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113051888A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291195A (zh) * 2020-01-21 2020-06-16 腾讯科技(深圳)有限公司 一种数据处理方法、装置、终端及可读存储介质
CN111400493A (zh) * 2020-03-06 2020-07-10 中国平安人寿保险股份有限公司 基于槽位相似度的文本匹配方法、装置、设备及存储介质
JP2020135135A (ja) * 2019-02-14 2020-08-31 株式会社日立製作所 対話コンテンツ作成支援方法およびシステム
WO2020238553A1 (zh) * 2019-05-30 2020-12-03 深圳壹账通智能科技有限公司 测试语料生成方法、装置、计算机设备和存储介质
CN112036164A (zh) * 2020-09-17 2020-12-04 深圳市欢太科技有限公司 样本生成方法及装置、计算机可读存储介质和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020135135A (ja) * 2019-02-14 2020-08-31 株式会社日立製作所 対話コンテンツ作成支援方法およびシステム
WO2020238553A1 (zh) * 2019-05-30 2020-12-03 深圳壹账通智能科技有限公司 测试语料生成方法、装置、计算机设备和存储介质
CN111291195A (zh) * 2020-01-21 2020-06-16 腾讯科技(深圳)有限公司 一种数据处理方法、装置、终端及可读存储介质
CN111400493A (zh) * 2020-03-06 2020-07-10 中国平安人寿保险股份有限公司 基于槽位相似度的文本匹配方法、装置、设备及存储介质
CN112036164A (zh) * 2020-09-17 2020-12-04 深圳市欢太科技有限公司 样本生成方法及装置、计算机可读存储介质和电子设备

Similar Documents

Publication Publication Date Title
CN108156508B (zh) 弹幕信息处理的方法、装置、移动终端、服务器及系统
CN109036419A (zh) 一种语音识别匹配方法、终端及计算机可读存储介质
CN106126174B (zh) 一种场景音效的控制方法、及电子设备
CN107402964A (zh) 一种信息推荐方法、服务器及终端
CN106126160B (zh) 一种音效调节方法及用户终端
CN104281568B (zh) 一种释义显示方法和装置
CN107633051A (zh) 桌面搜索方法、移动终端及计算机可读存储介质
CN109120781B (zh) 信息提示方法、电子装置及计算机可读存储介质
CN107317918A (zh) 参数设置方法及相关产品
CN107103074A (zh) 一种分享信息的处理方法和移动终端
CN106534528A (zh) 一种文本信息的处理方法、装置及移动终端
CN106506834B (zh) 通话中添加背景音的方法、终端及系统
CN106202422B (zh) 网页图标的处理方法和装置
CN106327342B (zh) 一种表情包的处理方法及终端
CN108052356A (zh) 一种启动计算器的方法,及终端设备
CN109062643A (zh) 一种显示界面调整方法、装置及终端
CN106973302A (zh) 一种下载视频数据的方法、装置及系统
CN110100424A (zh) 一种流媒体数据的处理方法及移动终端
CN110597973A (zh) 一种人机对话的方法、装置、终端设备和可读存储介质
CN104751152B (zh) 一种翻译方法及装置
WO2015067116A1 (zh) 处理语音文本的方法及装置
CN110277097A (zh) 数据处理方法及相关设备
CN109063033A (zh) 一种搜索应用程序的方法、装置及终端
CN113051888A (zh) 文本样本的生成方法、终端设备以及计算机可读存储介质
CN109189527A (zh) 智能显示应用程序的方法、装置和移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210629

WW01 Invention patent application withdrawn after publication