CN117010334A - 文本信息生成方法、装置、计算机设备和存储介质 - Google Patents
文本信息生成方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN117010334A CN117010334A CN202211245518.2A CN202211245518A CN117010334A CN 117010334 A CN117010334 A CN 117010334A CN 202211245518 A CN202211245518 A CN 202211245518A CN 117010334 A CN117010334 A CN 117010334A
- Authority
- CN
- China
- Prior art keywords
- information
- text
- letter sequence
- data characteristic
- characteristic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 110
- 238000004590 computer program Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims description 48
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 13
- 230000010365 information processing Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000008451 emotion Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 14
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 235000012149 noodles Nutrition 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000013475 authorization Methods 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- 206010011878 Deafness Diseases 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 235000020068 maotai Nutrition 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种文本信息生成方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:获取简拼字母序列,并确定简拼字母序列的字母序列信息,简拼字母序列由字母组成;基于字母序列信息确定多个数据特征信息,各数据特征信息对应不同数据特征信息维度;确定各数据特征信息的数据特征信息类型,数据特征信息类型用于描述数据特征信息在对应的数据特征信息维度下的类型;基于简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与简拼字母序列匹配的目标文本信息。采用本方法能够提升文本信息的准确度。
Description
技术领域
本申请涉及人工智能领域,特别是涉及一种文本信息生成方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术以及现代信息处理技术的发展,每一个人在使用计算机设备时均需要进行文本信息的输入,进行文本信息的输入的方法至少可以包括简拼输入方法、全拼输入方法、以及基于语言识别的输入方法等,基于不同的习惯进行文本信息的输入的方法也不同。
目前,在用户基于简拼输入方法输入简拼字母序列后,通常将简拼字母序列转换成匹配的全拼拼音序列,并使用词频或者其他命中规则对候选全拼拼音序列赋予权重,最后再将全拼拼音序列转换至到文本信息,以完成对文本信息的输入。然而,前述每个步骤均依赖于前一步骤的结果,因此每个步骤所产生的误差会逐步累计,由此降所得到的文本信息的准确度。因此,如何提升对文本信息生成的准确度是亟需解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升文本信息生成的准确度的文本信息生成方法、装置、计算机设备和存储介质。
第一方面,本申请提供了一种文本信息生成方法。所述方法包括:
获取简拼字母序列,并确定简拼字母序列的字母序列信息,简拼字母序列由字母组成;
基于字母序列信息确定多个数据特征信息,各数据特征信息对应不同数据特征信息维度;
确定各数据特征信息的数据特征信息类型,数据特征信息类型用于描述数据特征信息在对应的数据特征信息维度下的类型;
基于简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与简拼字母序列匹配的目标文本信息。
在其中一个实施例中,确定简拼字母序列的字母序列信息,包括:
基于简拼字母序列确定简拼字母序列的语义特征信息;
基于语义特征信息以及简拼字母序列确定字母序列信息。
在其中一个实施例中,方法还包括:
获取描述数据信息,描述数据信息包括对象信息和场景信息中至少一项;
基于简拼字母序列确定简拼字母序列的语义特征信息,包括:
基于简拼字母序列以及描述数据信息,确定语义特征信息。
在其中一个实施例中,基于语义特征信息以及简拼字母序列确定字母序列信息,包括:
基于简拼字母序列确定简拼字母序列所包括的字母数量;
基于语义特征信息以及字母数量确定简拼字母序列的频率信息,简拼字母序列的频率信息用于描述简拼字母序列在预设语料中的出现频率。
在其中一个实施例中,基于字母序列信息确定多个数据特征信息,包括:
基于字母数量确定简拼字母序列的字母数量数据特征信息;
基于简拼字母序列的频率信息,确定简拼字母序列的频率数据特征信息。
在其中一个实施例中,确定各数据特征信息的数据特征信息类型,包括:
对字母数量数据特征信息进行数量分类处理,得到字母数量数据特征信息的字母数量类型;
对频率数据特征信息进行频率分类处理,得到频率数据特征信息的频率类型。
在其中一个实施例中,文本信息生成模型的获取方法包括:
获取文本信息,文本信息由多个文本字符组成;
基于文本信息获取样本数据,样本数据包括文本信息对应的文本简拼字母序列以及多个样本数据特征信息类型,文本简拼字母序列包括各文本字符对应的首字母,样本数据特征信息类型用于描述样本数据特征信息在对应的数据特征信息维度下的类型;
基于样本数据通过初始文本信息生成模型得到样本数据对应的预测文本信息;
基于预测文本信息以及文本信息,更新初始文本信息生成模型的模型参数,以得到文本信息生成模型。
在其中一个实施例中,基于文本信息获取样本数据,包括:
对文本信息进行字音转化处理,获取文本简拼字母序列;
对文本信息进行字音转化处理,获取文本简拼字母序列,并确定文本字母序列信息;
基于文本字母序列信息确定各样本数据特征信息类型。
在其中一个实施例中,对文本信息进行字音转化处理,获取文本简拼字母序列,包括:
对文本信息进行字音转化处理为文本全拼拼音序列,文本全拼拼音序列包括各文本字符的全拼拼音;
对全拼拼音样本序列进行简拼采样得到文本简拼字母序列。
在其中一个实施例中,确定文本字母序列信息,包括:
确定文本简拼字母序列中各文本字符对应的首字母的文本字母数量;
确定文本信息的频率信息,文本信息的频率信息用于描述文本信息在预设语料中的出现频率;
其中,文本字母序列信息包括文本字母数量以及文本信息的频率信息。
在其中一个实施例中,基于文本字母序列信息确定各样本数据特征信息类型,包括:
对文本字母数量进行数据特征信息处理,获取文本字母数量数据特征信息,并对文本信息的频率信息进行数据特征信息处理,获取文本频率数据特征信息;
对文本字母数量数据特征信息进行数据特征信息分类处理得到数量类型,并对文本频率数据特征信息进行数据特征信息分类处理得到频率类型。
第二方面,本申请还提供了一种文本信息生成装置。所述装置包括:
获取模块,用于获取简拼字母序列,并确定简拼字母序列的字母序列信息,简拼字母序列由字母组成;
确定模块,用于基于字母序列信息确定多个数据特征信息,各数据特征信息对应不同数据特征信息维度;并确定各数据特征信息的数据特征信息类型,数据特征信息类型用于描述数据特征信息在对应的数据特征信息维度下的类型;
文本信息生成模块,用于基于简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与简拼字母序列匹配的目标文本信息。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取简拼字母序列,并确定简拼字母序列的字母序列信息,简拼字母序列由字母组成;
基于字母序列信息确定多个数据特征信息,各数据特征信息对应不同数据特征信息维度;
确定各数据特征信息的数据特征信息类型,数据特征信息类型用于描述数据特征信息在对应的数据特征信息维度下的类型;
基于简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与简拼字母序列匹配的目标文本信息。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取简拼字母序列,并确定简拼字母序列的字母序列信息,简拼字母序列由字母组成;
基于字母序列信息确定多个数据特征信息,各数据特征信息对应不同数据特征信息维度;
确定各数据特征信息的数据特征信息类型,数据特征信息类型用于描述数据特征信息在对应的数据特征信息维度下的类型;
基于简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与简拼字母序列匹配的目标文本信息。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取简拼字母序列,并确定简拼字母序列的字母序列信息,简拼字母序列由字母组成;
基于字母序列信息确定多个数据特征信息,各数据特征信息对应不同数据特征信息维度;
确定各数据特征信息的数据特征信息类型,数据特征信息类型用于描述数据特征信息在对应的数据特征信息维度下的类型;
基于简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与简拼字母序列匹配的目标文本信息。
上述文本信息生成方法、装置、计算机设备、存储介质和计算机程序产品,获取简拼字母序列,并确定简拼字母序列的字母序列信息,简拼字母序列由字母组成,然后基于字母序列信息确定多个数据特征信息,各数据特征信息对应不同数据特征信息维度,再确定各数据特征信息的数据特征信息类型,数据特征信息类型用于描述数据特征信息在对应的数据特征信息维度下的类型,从而基于简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与简拼字母序列匹配的目标文本信息。通过上述文本信息生成方法,考虑到不同的数据特征信息维度进行数据特征信息获取,即能够从多维度描述简拼字母序列的特征,还能够对各数据特征信息在对应的数据特征信息维度下进行分类,更为准确地描述归类简拼字母序列,使得文本信息生成模型能够学习到简拼字母序列在多个数据特征信息维度下的特征,并通过各特征的类型更为准确地学习到简拼字母序列在不同数据特征信息维度进行归类后的信息,由此所生成的目标文本信息能够与简拼字母序列更为匹配,从而提升文本信息生成的准确度。
附图说明
图1为一个实施例中文本信息生成方法的应用环境图;
图2为一个实施例中文本信息生成方法的流程示意图;
图3为一个实施例中输入简拼字母序列的界面示意图;
图4为一个实施例中展示目标文本信息的界面示意图;
图5为一个实施例中文本信息生成模型的模型结构示意图;
图6为一个实施例中确定字母序列信息的流程示意图;
图7为一个实施例中确定确定语义特征信息的流程示意图;
图8为另一个实施例中确定字母序列信息的流程示意图;
图9为一个实施例中确定多个数据特征信息的流程示意图;
图10为一个实施例中确定数据特征信息类型的流程示意图;
图11为一个实施例中文本信息生成模型的获取方法的流程示意图;
图12为一个实施例中获取样本数据的流程示意图;
图13为一个实施例中获取样本数据的完整流程示意图;
图14为一个实施例中获取文本简拼字母序列的流程示意图;
图15为一个实施例中确定文本字母序列信息的流程示意图;
图16为一个实施例中确定各样本数据特征信息类型的流程示意图;
图17为一个实施例中文本信息生成方法的完整流程示意图;
图18为一个实施例中文本信息生成装置的结构框图;
图19为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案涉及人工智能的自然语言处理(Nature Languageprocessing,NLP)领域以及机器学习(Machine Learning,ML)领域,NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
其次,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。基于此,本申请的方案具体通过如下实施例进行说明:
本申请实施例提供的文本信息生成的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信,数据存储系统可以存储服务器104需要处理的数据,例如,简拼字母序列以及文本信息等。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。具体地,在进行文本信息生成之前,需要通过训练得到文本信息生成模型,终端102可以向服务器104发送训练模型的指令,以使得服务器104进行模型训练,也可以是服务器104直接开始进行模型训练,或者是具有高算力的终端102进行模型训练,此处不做限定。
以服务器104直接开始进行模型训练作为示例进行说明,那么服务器104可以从数据存储系统中获取文本信息,文本信息由多个文本字符组成,然后基于文本信息获取样本数据,样本数据包括文本信息对应的文本简拼字母序列以及多个样本数据特征信息类型,文本简拼字母序列包括各文本字符对应的首字母,样本数据特征信息类型用于描述样本数据特征信息在对应的数据特征信息维度下的类型,从而基于样本数据通过初始文本信息生成模型得到样本数据对应的预测文本信息,再基于预测文本信息以及文本信息,更新初始文本信息生成模型的模型参数,以得到文本信息生成模型。
基于此,在需要生成文本信息时,可以由服务器104获取简拼字母序列,并确定简拼字母序列的字母序列信息,再基于字母序列信息确定多个数据特征信息,并确定各数据特征信息的数据特征信息类型,从而基于简拼字母序列以及数据特征信息类型,通过训练得到的文本信息生成模型获取与简拼字母序列匹配的目标文本信息。其次,在得到已训练的文本信息生成模型后,服务器104还可以将已训练的文本信息生成模型存储至区块链网络或者直接下发给终端102,因此在需要生成文本信息时,终端102可以简拼字母序列,并确定简拼字母序列的字母序列信息,再基于字母序列信息确定多个数据特征信息,并确定各数据特征信息的数据特征信息类型,从而基于简拼字母序列以及数据特征信息类型,通过训练得到的文本信息生成模型获取与简拼字母序列匹配的目标文本信息。
其中,终端102可以但不限于是台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
其次,本申请所提供的文本信息生成的方法可以应用于各种需要进行文本信息生成的场景,例如,在实时聊天场景下,聊天对象输入简拼字母序列并通过本申请所提供的文本信息生成的方法,获取与简拼字母序列对应的目标文本信息,并在聊天对象所使用的终端显示界面展示。或者,在基于文本信息进行搜索的场景下,信息搜索对象输入简拼字母序列后,通过本申请所提供的文本信息生成的方法获取与简拼字母序列对应的目标文本信息,然后在信息搜索对象所使用的终端显示界面展示,并基于目标文本信息进行搜索。应理解,在实际应用中,本申请所提供的文本信息生成的方法还可以应用于其他文本信息输入的场景,此处不进行赘述。
通过前述实施例得到文本信息生成模型后,下面将详细介绍进行文本信息生成的方法。在一个实施例中,如图2所示,提供了一种文本信息生成的方法,以该方法应用于图1中的终端102为例进行说明,可以理解的是,该方法也可以应用于服务器104,或者应用于包括服务器104和终端102的系统,并通过服务器104和终端102的交互实现。本实施例中,该方法包括以下步骤:
步骤202,获取简拼字母序列,并确定简拼字母序列的字母序列信息,简拼字母序列由字母组成。
其中,简拼字母序列由字母组成,简拼具体为文本信息中各文本字符的全拼拼音的首字母,例如,文本信息为“你好”,那么文本信息具体由文本字符“你”以及文本字符“好”组成,因此前述文本字符“你”的全拼拼音为“ni”,且全拼拼音“ni”的首字母为“n”,同理,前述文本字符“好”的全拼拼音为“hao”,那么全拼拼音“hao”的首字母为“h”,由此得到简拼“n”以及“h”,由此所组成的简拼字母序列为“nh”。应理解,简拼字母序列可以包括一个或多个字母,例如,“d”可以为一个简拼字母序列,而“mtj”也可以为一个简拼字母序列。其次,字母序列信息为用于描述组成简拼字母序列的字母的信息。
具体地,对象在可以通过键盘输入简拼字母序列,使得终端获取简拼字母序列。前述键盘可以为终端搭载的虚拟键盘,也可以为与终端连接的外接键盘,且键盘类型可以为:包括26键全键盘的拼音输入键盘,或包括九宫格键盘的拼音输入键盘,但前述键盘需能够支持简拼字母输入。
为便于理解,以包括26键全键盘的拼音输入键盘为例进行说明,如图3所示,图3中(A)图对象依次对“n”以及“h”进行操作,由此得到简拼字母序列302,且简拼字母序列302具体为“nh”。其次,图3中(B)图对象依次对“m”、“t”以及“j”进行操作,由此得到简拼字母序列304,且简拼字母序列304具体为“mtj”。
应理解,若基于包括九宫格键盘的拼音输入键盘进行简拼字母序列进行输入,此时可以组合得到多个待选择简拼字母序列,此时需要对象从多个待选择简拼字母序列中选择实际需要输入的简拼字母序列。例如,对象选择输入“2”,此时可以对应的待选择简拼字母序列“a”、待选择简拼字母序列“b”以及“待选择简拼字母序列“c”,对象通过操作对待选择简拼字母序列“b”进行选择,即此时终端确定简拼字母序列具体为“b”。
进一步地,终端获取简拼字母序列后,还能够基于组成简拼字母序列的字母的信息确定简拼字母序列的字母序列信息。即字母序列信息为用于描述组成简拼字母序列的字母的信息。例如,简拼字母序列中字母的字母数量,简拼字母序列在预设语料中的出现频率。为便于理解,以字母序列信息包括简拼字母序列中字母的字母数量为例进行说明,若简拼字母序列为“nh”,那么字母数量为2。同理,若简拼字母序列为“mtj”,那么字母数量为3。
应理解,在实际应用中,字母序列信息还可以为简拼字母序列描述的情感信息,简拼字母序列描述的实体信息等,情感信息具体可以为正向情感、中性情感以及负向情感,而实体信息具体包括但不限于,人名,职位以及物品等。本申请不对字母序列信息进行限定。
步骤204,基于字母序列信息确定多个数据特征信息,各数据特征信息对应不同数据特征信息维度。
其中,数据特征信息用于描述在对应的数据特征信息维度下简拼字母序列的数据特征信息,因此多个数据特征信息中的每个数据特征信息均对应不同数据特征信息维度。
具体地,终端基于字母序列信息确定多个数据特征信息,且每个数据特征信息对应不同数据特征信息维度。例如,若字母序列信息为简拼字母序列中字母的字母数量,那么可以得到用于描述字母数量的数据特征信息,即从数量数据特征信息维度描述简拼字母序列的特征。其次,若字母序列信息为简拼字母序列在预设语料中的出现频率,那么可以得到用于描述频率信息的数据特征信息,即从频率数据特征信息维度描述简拼字母序列的特征。
步骤206,确定各数据特征信息的数据特征信息类型,数据特征信息类型用于描述数据特征信息在对应的数据特征信息维度下的类型。
其中,数据特征信息类型用于描述数据特征信息在对应的数据特征信息维度下的类型。
具体地,终端基于各数据特征信息的数据特征信息维度,分别对各数据特征信息进行分类处理,以得到的各数据特征信息的数据特征信息类型。具体分类方法需要基于数据特征信息的数据特征信息维度,以及实际数据分布以及业务需求等多重维度灵活确定。例如,若字母序列信息为简拼字母序列中字母的字母数量,那么可以得到用于描述字母数量的数据特征信息,然后再基于字母数量这一数据特征信息维度,对用于描述字母数量的数据特征信息进行分类,即可以得到在字母数量下的数据特征信息类型。若对用于描述字母数量的数据特征信息的分类方法为:1~5为第一数量类型,6~10为第二数量类型,以及11至15为第三数量类型,若用于描述字母数量的数据特征信息具体为:字母序列信息包括3个字母,那么基于对用于描述字母数量的数据特征信息的分类方法,可以确定用于描述字母数量的数据特征信息属于第一数量类型。
步骤208,基于简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与简拼字母序列匹配的目标文本信息。
其中,目标文本信息可以为单个文本信息,也可以包括多个文本信息。
具体地,终端基于通过前述步骤所得到的简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与简拼字母序列匹配的目标文本信息。在实际应用中,终端还可以基于实际应用于需求将目标文本信息展示于终端的显示界面,例如,对象在可以通过键盘输入简拼字母序列,使得终端获取简拼字母序列,并基于上述方法生成与简拼字母序列匹配的目标文本信息,并将所生成的目标文本信息显示与输入简拼字母序列的对象所使用终端的显示界面。
即终端基于简拼字母序列以及数据特征信息类型,通过文本信息生成模型能够生成与简拼字母序列匹配的多个待选择文本信息,基于具体应用场景需求,可以将多个待选择文本信息确定为目标文本信息。例如,简拼字母序列为“mtj”,而通过文本信息生成模型可以得到待选择文本信息“明天见”,“没条件”,“面条机”以及“没听见”,此时可以将待选择文本信息“明天见”,“没条件”,“面条机”以及“没听见”组成目标文本信息。
或者,基于多个待选择文本信息分别与简拼字母序列的应用匹配度,选择应用匹配度较高的多个待选择文本信息为目标文本信息。例如,简拼字母序列为“mtj”,而通过文本信息生成模型可以得到待选择文本信息“明天见”,“没条件”,“面条机”以及“没听见”,且待选择文本信息“明天见”与简拼字母序列“mtj”的应用匹配度为95%,待选择文本信息“没条件”与简拼字母序列“mtj”的应用匹配度为85%,待选择文本信息“面条机”与简拼字母序列“mtj”的应用匹配度为80%,以及待选择文本信息“没听见”与简拼字母序列“mtj”的应用匹配度为90%,此时可以选择待选择文本信息“明天见”、“没听见”以及“没条件”组成目标文本信息。在此场景下,若需要将目标文本信息显示与对象所用终端的显示界面,也可以基于目标文本信息中多个文本信息与简拼字母序列的应用匹配度从高到低排序展示。
或者,基于多个待选择文本信息分别与简拼字母序列的应用匹配度,选择应用匹配度最高的待选择文本信息为目标文本信息,此时目标文本信息为单个文本信息。再次基于前述示例,由于待选择文本信息“明天见”与简拼字母序列“mtj”的应用匹配度为95%,为应用匹配度最高的待选择文本信息,因此可以将“明天见”确定为目标文本信息。本实施例中的应用匹配度用于描述:在考虑应用场景信息以及对象信息等多个维度信息下,文本信息与简拼字母序列的匹配度。
为便于理解,基于图3以及前述的示例,以简拼字母序列“mtj”为例进行说明,如图4所示,图4中(A)图示出的为,基于在输入简拼字母序列402后,显示待选择文本信息“明天见”,“没条件”,“面条机”以及“没听见”组成的目标文本信息404。其次,图4中(B)图示出的为,基于在输入简拼字母序列402后,显示待选择文本信息中应用匹配度较高的“明天见”,“没条件”,以及“面条机”组成的目标文本信息406。其次,图4中(C)图示出的为,基于在输入简拼字母序列402后,显示待选择文本信息中应用匹配度最高的“明天见”作为目标文本信息408。
其次,文本信息生成模型可以但不包括为:Transformer模型、卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)等,此处不对文本信息生成模型的模型结构进行限定。为进一步地理解本申请,以文本信息生成模型为Transformer模型为例,即Transformer模型框架如图5所示,Transformer模型框架具体由编码器(Encoder)502以及解码器(Decoder)504组成。其中,编码器502具体由第一多头注意力机制(Multi-Head Attention)层5021、第一残差与标准化(Add&Norm)层5022、第一全连接层(Feed Forward)5023以及第二残差与标准化层5024组成。
其次,解码器504具体由第二多头注意力机制层5041、第三残差与标准化层5042、第三多头注意力机制层5043、第四残差与标准化层5044、第二全连接层5045、第五残差与标准化层5046。其中,第二多头注意力机制层5041中进行了掩码处理操作,而第三多头注意力机制层5043中K,V矩阵使用解码器504的编码信息矩阵C进行计算,而Q矩阵使用上一个解码器的输出进行计算。
应理解,图2中各步骤中所述示例均用于理解本申请的相关技术内容,而不应理解为对本申请的限定。
上述文本信息生成方法中,考虑到不同的数据特征信息维度进行数据特征信息获取,即能够从多维度描述简拼字母序列的特征,还能够对各数据特征信息在对应的数据特征信息维度下进行分类,更为准确地描述归类简拼字母序列,使得文本信息生成模型能够学习到简拼字母序列在多个数据特征信息维度下的特征,并通过各特征的类型更为准确地学习到简拼字母序列在不同数据特征信息维度进行归类后的信息,由此所生成的目标文本信息能够与简拼字母序列更为匹配,从而提升文本信息生成的准确度。
在一个实施例中,如图6所示,确定简拼字母序列的字母序列信息,包括:
步骤602,基于简拼字母序列确定简拼字母序列的语义特征信息。
其中,语义特征信息用于描述简拼字母序列所描述的语义特征,且本实施例中语义特征信息为对简拼字母序列的预测语义特征。
具体地,终端对简拼字母序列进行语义分析预测,从而得到语义特征信息。语义特征信息的确定方法包括但不限于:使用对象信息预测语义特征、根据场景信息预测语义特征、随机采样语义特征等,此处不做限定。因此,语义特征信息可以包括多个对简拼字母序列的预测语义特征。
步骤604,基于语义特征信息以及简拼字母序列确定字母序列信息。
具体地,终端通过语义特征信息以及简拼字母序列确定字母序列信息。即基于语义特征信息中所包括对简拼字母序列的预测语义特征,以及简拼字母序列共同确定字母序列信息。
本实施例中,在生成目标文本信息进一步地考虑到简拼字母序列的语义特征信息,即能够通过语义特征信息学习到简拼字母序列的语义,进一步地提升文本信息生成的准确度。
在一个实施例中,如图7所示,文本信息生成方法还包括:
步骤702,获取描述数据信息,描述数据信息包括对象信息和场景信息中至少一项。
其中,描述数据信息包括对象信息和场景信息中至少一项。即描述数据信息包括对象信息,或场景信息,或对象信息和场景信息。前述对象信息用于描述输入简拼字母序列的对象对应的信息,例如,对象的年龄信息、性别信息、教育程度信息、常住地区信息等。其次,场景信息用于描述对象输入简拼字母序列的所在场景,例如,聊天场景、工作场景、旅游场景、购物场景、娱乐场景以及游戏场景等。
具体地,终端在获取简拼字母序列时,还能够获取描述数据信息。描述数据信息可以为对象上报的信息,也可以为终端基于对象授权或者经过各方充分授权所获取的信息,或基于所使用的应用类型确定的信息。例如,对象主动上报或者对象授权终端获取对象信息。而对象具体在购物应用上输入简拼字母序列,那么可以确定场景信息为购物场景,或对象具体在工作应用上输入简拼字母序列,那么可以确定场景信息为工作场景等。此处不对如何获取描述数据信息的方法进行限定。
基于此,基于简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与简拼字母序列匹配的目标文本信息,包括:
步骤704,基于简拼字母序列以及描述数据信息,确定语义特征信息。
其中,通过前述实施例可知,语义特征信息用于描述简拼字母序列所描述的语义特征。由于不同的对象以及在不同场景下,简拼字母序列所想要描述的语义可能存在差异,因此在确定简拼字母序列的语义特征信息时,还应该考虑输入简拼字母序列的对象,或输入简拼字母序列的场景。因此,语义特征信息可以包括多个对简拼字母序列的预测语义特征。
具体地,终端具体基于简拼字母序列以及描述数据信息,确定简拼字母序列的语义特征信息。具体为基于简拼字母序列以及描述数据信息,预测简拼字母序列的语义特征信息。由于描述数据信息包括对象信息和场景信息中至少一项,下面分别对描述数据信息包括不同信息时进行介绍:
1、描述数据信息包括对象信息,因此,终端具体基于简拼字母序列以及对象信息确定简拼字母序列的语义特征信息,即通过对象信息预测简拼字母序列的语义特征信息。例如,对象信息1描述对象的年龄55岁,而对象信息2描述对象的年龄25岁,若简拼字母序列为“bjd”,那么可以预测对象信息1的语义特征信息为:简拼字母序列“bjd”的语义为“不觉得”,而可以预测对象信息2对应的语义特征信息为:简拼字母序列“bjd”的语义为“布吉岛”。
2、描述数据信息包括场景信息,因此,终端具体基于简拼字母序列以及场景信息确定简拼字母序列的语义特征信息,即通过场景信息预测简拼字母序列的语义特征信息。例如,场景信息1描述对象处于聊天场景,而场景信息2描述对象处于购物场景,若简拼字母序列为“hj”,那么可以预测场景信息1对应的语义特征信息为:简拼字母序列“hj”的语义为“回家”,而可以预测场景信息2对应的语义特征信息为:简拼字母序列“hj”的语义为“还价”。
或者,也可以直接使用与场景信息具有关联性的其他场景信息,通过多个具有关联性的其他场景信息,确定简拼字母序列在多个场景信息下的预测语义特征,并将多个场景信息下的语义特征,均确定为简拼字母序列的语义特征信息。例如,场景信息描述对象处于购物场景,在购物场景下需要进行聊天与沟通,那么可以与聊天场景关联等。
3、描述数据信息包括对象信息以及场景信息。此时,终端可以通过前述介绍的方式,基于对象信息确定简拼字母序列在该对象信息下语义特征信息,以及基于场景信息确定简拼字母序列在该场景信息下语义特征,即然后通过随机采样的方式从中选择一个确定为简拼字母序列的语义特征信息。或者,将在该对象信息下语义特征,以及在该场景信息下语义特征进行拼接,得到简拼字母序列的语义特征信息。
应理解,前述示例仅用于理解本方案,而不应该理解对本方案的限定。
本实施例中,通过描述数据信息能够考虑到输入简拼字母序列的对象,以及所处场景,由此文本信息生成模型能够学习到简拼字母序列在不同的对象信息,以及不同的场景信息下的多维度语义特征信息,由此在生成目标文本信息时能够更为贴合实际场景以及实际使用对象,进一步地提升文本信息生成的准确度。
前述实施例描述字母序列信息可以包括但不限于,简拼字母序列中字母的字母数量,简拼字母序列在预设语料中的出现频率,简拼字母序列描述的情感信息,简拼字母序列描述的实体信息等。下面以字母序列信息包括:简拼字母序列中字母的字母数量,简拼字母序列在预设语料中的出现频率作为示例进行说明,应理解,在实际应用中,还可以考虑更多的描述简拼字母序列的信息,此处不做限定。
在一个实施例中,如图8所示,基于语义特征信息以及简拼字母序列确定字母序列信息,包括:
其中,字母序列信息包括字母数量以及频率信息。
步骤802,基于简拼字母序列确定简拼字母序列所包括的字母数量。
其中,字母数量为组成简拼字母序列的字母的总数。
具体地,终端确定简拼字母序列所包括的字母数量。例如,若简拼字母序列为“mtj”,那么简拼字母序列“mtj”所包括的字母数量为3。若简拼字母序列为“kyhc”,那么简拼字母序列“kyhc”所包括的字母数量为4。
步骤804,基于语义特征信息以及字母数量确定简拼字母序列的频率信息,简拼字母序列的频率信息用于描述简拼字母序列在预设语料中的出现频率。
其中,简拼字母序列的频率信息用于描述简拼字母序列在预设语料中的出现频率。具体地,终端具体基于语义特征信息以及字母数量确定简拼字母序列的频率信息,简拼字母序列的频率信息用于描述简拼字母序列在预设语料中的出现频率。基于此,终端具体需要获取语义特征信息对简拼字母序列的预测语义在预设语料中的出现次数,以及确定在预设语料中字符数量为字母数量的语料的总数,取上述比值确定出现频率。
具体如公式(1)所示:
其中,F表示频率信息,Q语义特征信息表示语义特征信息对简拼字母序列的预测语义在预设语料中的出现次数,Q字母次数表示在预设语料中字符数量为字母数量的语料的总数。
例如,简拼字母序列为“mtj”,由此可知字母数量为3,而语义特征信息对简拼字母序列的预测语义为“明天见”,若“明天见”在预设语料中的出现次数为7,而字母数量3的语料的总数为10,所以可以确定频率信息为
本实施例中,通过字母数量能够准确描述应生成文本信息中所包括的字符数量,而频率信息能够考虑预设语料中可能出现的相关语料,从而通过频率信息能够描述所预测的语义出现的频率,使得所确定的数据特征信息类型更为准确且贴合实际。并且提升文本信息生成模型所获取的信息的完整性,从而提升文本信息生成的准确性。
在一个实施例中,如图9所示,基于字母序列信息确定多个数据特征信息,包括:
步骤902,基于字母数量确定简拼字母序列的字母数量数据特征信息。
图8的实施例中介绍,字母序列信息包括字母数量以及频率信息,因此终端可以基于字母数量确定简拼字母序列的字母数量数据特征信息,即字母数量数据特征信息用于描述简拼字母序列的字母数量。
步骤904,基于简拼字母序列的频率信息,确定简拼字母序列的频率数据特征信息。
同理,终端可以基于简拼字母序列的频率信息,确定简拼字母序列的频率数据特征信息,即频率数据特征信息用于描述简拼字母序列的出现频率。
本实施例中,通过字母序列信息中的字母数量,以及简拼字母序列的频率信息,进行对应的特征处理,以得到多个数据特征信息维度的数据特征信息,从而保证各数据特征信息能够更为准确地描述简拼字母序列,并提升获取数据特征信息的实用性。
在一个实施例中,如图10所示,确定各数据特征信息的数据特征信息类型,包括:
步骤1002,对字母数量数据特征信息进行数量分类处理,得到字母数量数据特征信息的字母数量类型。
其中,数量分类处理需要基于数量分类方法进行,具体分类方法需要基于字母数量,以及实际的字母数量分布以及业务需求等多重维度灵活确定。例如,对用于描述字母数量的数据特征信息的分类方法为:1~5为第一数量类型,6~10为第二数量类型,以及11至15为第三数量类型。或,直接对字母数量进行类型描述,即用于描述字母数量的数据特征信息的分类方法为:字母数量为1的字母数量类型为1,字母数量为2的字母数量类型为2,字母数量为3的字母数量类型为3,以此类推,字母数量为15的字母数量类型为15。
具体地,终端对字母数量数据特征信息进行数量分类处理,得到该字母数量数据特征信息的字母数量类型。即终端需要基于数量分类方法对字母数量数据特征信息进行分类,从而确定字母数量类型。例如,若用于描述字母数量的数据特征信息的分类方法为:字母数量为1的字母数量类型为1,字母数量为2的字母数量类型为2,字母数量为3的字母数量类型为3,以此类推,字母数量为15的字母数量类型为15,而数量数据特征信息具体为:字母序列信息包括3个字母的特征,那么前述数量数据特征信息的字母数量类型为3。
步骤1004,对频率数据特征信息进行频率分类处理,得到频率数据特征信息的频率类型。
其中,频率分类处理需要基于数量分类方法进行,具体分类方法需要基于频率,以及实际的频率分布以及业务需求等多重维度灵活确定。例如,对用于描述频率的数据特征信息的分类方法为:小于25%为第一频率类型,25%~50%为第二频率类型,50%~75%为第三频率类型以及75%~100%为第三频率类型。或,用更为细分的用于描述频率的数据特征信息的分类方法:小于10%为第一频率类型,10%~20%为第二频率类型,20%~30%为第三频率类型,以此类推,90%~100%为第十频率类型。
具体地,终端对频率数据特征信息进行频率分类处理,得到该频率数据特征信息的频率类型。即终端需要基于频率分类方法对频率数据特征信息进行分类,从而确定频率类型。例如,若用于描述频率的数据特征信息的分类方法为:10%~20%为第二频率类型,20%~30%为第三频率类型,以此类推,90%~100%为第十频率类型,而用于频率数据特征信息具体为:简拼字母序列在预设语料中的出现频率为0.7(即70%)的特征,那么前述频率数据特征信息的频率类型为第八频率类型。
本实施例中,通过数量分类处理以及频率分类处理,从两个维度对对应的数据特征信息进行归类,即更为准确地通过归类后得到的频率类型以及数量类型更为准确且描述简拼字母序列,使得文本信息生成模型能够通过各维度的特征类型更为准确地学习到简拼字母序列在不同数据特征信息维度进行归类后的信息,由此所生成的目标文本信息能够与简拼字母序列更为匹配,进一步地提升文本信息生成的准确度。
在前述实施例中描述,需要通过文本信息生成模型获取与简拼字母序列匹配的目标文本信息,下面将详细介绍如何获取文本信息生成模型的方法:
在一个实施例中,如图11所示,文本信息生成模型的获取方法包括:
步骤1102,获取文本信息,文本信息由多个文本字符组成。
其中,文本信息由多个文本字符组成,文本字符具体为中文文字,例如,文本信息为“快乐”,即文本信息具体由文本字符“快”以及文本字符“乐”组成。或者,文本信息为“门钉肉饼”,即文本信息具体由文本字符“门”、文本字符“钉”、文本字符“肉”以及文本字符“饼”组成。
具体地,终端获取文本信息。文本信息的获取可以是终端通过多个对象的所输入的各历史文本信息得到的,或者为基于预设采样比例对各数据平台的文章等数据进行采样获取的,或者为基于简拼字母序列进行采样得到的。本申请不对获取文本信息的具体方式进行限定。
步骤1104,基于文本信息获取样本数据,样本数据包括文本信息对应的文本简拼字母序列以及多个样本数据特征信息类型,文本简拼字母序列包括各文本字符对应的首字母,样本数据特征信息类型用于描述样本数据特征信息在对应的数据特征信息维度下的类型。
其中,文本简拼字母序列包括各文本字符对应的首字母,与前述实施例中所介绍的简拼字母序列类似,简拼具体为文本信息中各文本字符的全拼拼音的首字母。那么文本简拼字母序列具体就是包括文本信息中各文本字符的全拼拼音的首字母。例如,基于前述示例,文本信息为“快乐”,即文本信息具体由文本字符“快”以及文本字符“乐”组成,那么文本信息中文本字符“快”的全拼拼音为“kuai”,文本字符“乐”的全拼拼音为“le”,全拼拼音“kuai”的首字母为“k”,全拼拼音“le”的首字母为“l”,由此可知,文本信息“快乐”对应的文本简拼字母序列为“kl”。
其次,样本数据特征信息类型用于描述样本数据特征信息在对应的数据特征信息维度下的类型,即样本数据特征信息类型与前述实施例所介绍的数据特征信息类型类似。例如,以数据特征信息维度包括描述频率以及描述数量的维度,那么样本数据特征信息类型可以包括“频率高”以及“数量少”,或者,“频率低”以及“数量少”,或者,“频率高”以及“数量多”等等。
具体地,终端基于文本信息获取文本信息对应的文本简拼字母序列,并确定多个样本数据特征信息,各样本数据特征信息对应不同数据特征信息维度,由此基于各样本数据特征信息的数据特征信息维度,对各样本数据特征信息进行分类得到各样本数据特征信息的样本数据特征信息类型,因此所得到的多个样本数据特征信息类型可以描述多个样本数据特征信息,分别在对应的数据特征信息维度下的类型。
步骤1106,基于样本数据通过初始文本信息生成模型得到样本数据对应的预测文本信息。
其中,组成预测文本信息中的文本字符的数量,与组成文本信息中的文本字符的数量是相等的。
具体地,终端基于样本数据中的文本简拼字母序列以及多个样本数据特征信息类型,通过初始文本信息生成模型得到样本数据对应的预测文本信息。例如,文本简拼字母序列为“mtj”,样本数据特征信息类型包括字母数量的第一数量类型(字母数量处于1~5个之间),以及频率信息的频率类型(频率信息处于70%~80%之间)。此时可以输出预测文本信息“明天见”。
或者,对于另一种类型描述方式,文本简拼字母序列为“mtj”,样本数据特征信息类型包括“频率高”以及“数量少”时,输出预测文本信息“明天见”。而样本数据特征信息类型包括“频率低”以及“数量少”时,输出预测文本信息“茅台酒”。以及样本数据特征信息类型包括“频率高”以及“数量多”时,输出预测文本信息“明天就”。
步骤1108,基于预测文本信息以及文本信息,更新初始文本信息生成模型的模型参数,以得到文本信息生成模型。
具体地,终端基于预测文本信息以及文本信息,更新初始文本信息生成模型的模型参数,以得到文本信息生成模型。即终端计算预测文本信息以及文本信息之间的损失值,该损失值用于描述预测文本信息以及文本信息之间的相似度,从而根据损失值判断初始文本信息生成模型的损失函数是否达到收敛条件,若未达到收敛条件,则利用损失值调整初始文本信息生成模型的模型参数。基于此,直至初始文本信息生成模型的损失函数达到收敛条件,则根据最后一次对模型参数进行调整后获得的模型参数获得文本信息生成模型,从而在实际应用中通过训练得到的文本信息生成模型基于简拼字母序列进行文本信息生成。
前述损失函数的收敛条件可以为损失函数的值小于或等于第一预设阈值,作为示例,例如第一预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值。也可以为损失函数的相邻两次的值的差值小于或等于第二预设阈值,第二阈值的取值可以与阈值的取值相同或不同,作为示例,例如第二预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值等。也可以为初始文本信息生成模型的模型参数更新此处达到更新迭代阈值等,在实际应用中,还可以采用其它收敛条件等,此处不做限定。
进一步地,以初始文本信息生成模型为Transformer模型为例,Transformer模型框架请再次参阅图5,在训练过程中,将样本数据输入至初始文本信息生成模型的解码器502中,使得初始文本信息生成模型学习编码文本简拼字母序列,以及基于样本数据特征信息类型预测文本语义特征的能力,然后将样本数据的输出作为解码器504的监督信号,使解码器504学会生成符合该以及预测文本语义特征的文本信息的能力。
本实施例中,初始文本信息生成模型能够学习编码文本简拼字母序列,以及基于样本数据特征信息类型预测文本语义特征的能力,且具体通过多个样本数据特征信息类型更为准确地学习到文本简拼字母序列,在不同数据特征信息维度进行归类后的语义特征,提升语义特征在多个维度的可靠性以及准确度,保证所获取到的文本信息生成模型的可靠性,从而提升基于文本信息生成模型进行文本信息生成的准确度。
在一个实施例中,如图12所示,基于文本信息获取样本数据,包括:
步骤1202,对文本信息进行字音转化处理,获取文本简拼字母序列,并确定文本字母序列信息。
其中,文本简拼字母序列由字母组成,简拼具体为文本信息中各文本字符的全拼拼音的首字母。其次,文本字母序列信息为用于描述组成文本简拼字母序列的字母的信息。
具体地,终端需要对文本信息进行字音转化处理,以获取文本简拼字母序列,其次,终端再确定文本字母序列信息,与前述实施例所介绍的字母序列信息类似,文本字母序列信息可以包括但不限于:文本简拼字母序列中字母的字母数量,文本信息在预设语料中的出现频率,文本信息描述的情感信息,简文本信息描述的实体信息等,情感信息具体可以为正向情感、中性情感以及负向情感,而实体信息具体包括但不限于,人名,职位以及物品等。本申请也不对文本字母序列信息进行限定。
步骤1204,基于文本字母序列信息确定各样本数据特征信息类型。
具体地,终端基于文本字母序列信息确定多个文本数据特征信息,各文本数据特征信息对应不同数据特征信息维度,然后终端基于各文本数据特征信息的数据特征信息维度,分别对各文本数据特征信息进行分类处理,以得到的各文本数据特征信息的样本数据特征信息类型。具体分类方法需要基于文本数据特征信息的数据特征信息维度,以及实际数据分布以及业务需求等多重维度灵活确定。
为便于理解,具体如图13所示,对文本信息1301进行字音转化处理,可以得到文本简拼字母序列1302,以及确定文本字母序列信息1303,并基于文本字母序列信息1303确定各样本数据特征信息类型1304,从而得到包括各样本数据特征信息类型1304以及文本简拼字母序列1302的样本数据1305。即图13以文本信息为“明天见”作为示例,对“明天见”进行字音转化处理,可以得到“mtj”,以及确定文本字母序列信息为频率信息:0.7,字母数量:3,由此可以分类得到频率信息:0.7对应的样本数据特征信息类型为:频率高,同理,字母数量:3对应的样本数据特征信息类型为:字母数量少,因此所得得到的样本数据包括:频率高、字母数量少以及“mtj”。
应理解,在实际训练过程中,还可以基于文本字母序列信息确定文本简拼字母序列的文本语义特征信息,再基于文本语义特征信息以及文本简拼字母序列确定文本字母序列信息。还可以在文本语义特征信息时,进一步地获取描述数据信息,即描述数据信息包括对象信息和场景信息中至少一项,从而基于文本简拼字母序列以及描述数据信息,确定文本语义特征信息。具体实施方式与前述实施例类似,此处不再赘述。
本实施例中,考虑到不同的数据特征信息维度进行文本数据特征信息获取,再对各文本数据特征信息在对应的数据特征信息维度下进行分类,更为准确地描述对文本简拼字母序列进行,使得初始文本信息生成模型能够学习到文本简拼字母序列在多个文本数据特征信息维度下的特征,以提升样本数据的可靠性以及完整性。
在一个实施例中,如图14所示,对文本信息进行字音转化处理,获取文本简拼字母序列,包括:
步骤1402,对文本信息进行字音转化处理为文本全拼拼音序列,文本全拼拼音序列包括各文本字符的全拼拼音。
其中,文本全拼拼音序列包括各文本字符的全拼拼音。
具体地,终端对文本信息进行字音转化处理,也就是将文本信息转化为对应为文本全拼拼音序列。例如,以文本信息为“明天见”作为示例,那么“明天见”对应的文本全拼拼音序列为“mingtianjian”。其次,以文本信息为“你好”作为示例,那么“你好”对应的文本全拼拼音序列为“nihao”。具体字音转化处理的方式,此处不作限定。
步骤1404,对全拼拼音样本序列进行简拼采样得到文本简拼字母序列。
具体地,终端对包括各文本字符的全拼拼音的文本全拼拼音序列进行简拼采样,即对各文本字符的全拼拼音的首字母进行采样,从而得到文本简拼字母序列。再次以步骤1402所示示例进行说明,“明天见”对应的文本全拼拼音序列为“mingtianjian”,即文本字符“明”对应的全拼拼音为“ming”,此时对全拼拼音“ming”的首字母“m”进行采样,同理可知,文本字符“天”对应的全拼拼音为“tian”,此时对全拼拼音“tian”的首字母“t”进行采样,以及文本字符“见”对应的全拼拼音为“jian”,此时对全拼拼音“jian”的首字母“j”进行采样,此时可以采样得到“m”“t”“j”,由此组成该文本信息“明天见”对应的文本简拼字母序列“mtj”。应理解,前述示例仅便于理解文本全拼拼音序列以及文本简拼字母序列,不应理解为本申请的限定。
本实施例中,通过字音转化处理能够得到文本信息对应的准确的文本全拼拼音序列,对文本全拼拼音序列中各文本字符的全拼拼音进行首字母采样,即可得到准确地本简拼字母序列,由此提升样本数据的可靠性以及准确度。
在一个实施例中,如图15所示,确定文本字母序列信息,包括:
其中,文本字母序列信息包括文本字母数量以及文本信息的频率信息。
步骤1502,确定文本简拼字母序列中各文本字符对应的首字母的文本字母数量。
其中,文本字母数量为文本组成简拼字母序列的各文本字符对应的首字母的总数。
具体地,终端确定文本简拼字母序列中各文本字符对应的首字母的文本字母数量。例如,若文本简拼字母序列为“mtj”,那么文本简拼字母序列“mtj”中各文本字符对应的首字母的文本字母数量为3。若文本简拼字母序列为“nh”,那么文本简拼字母序列“nh”中各文本字符对应的首字母的文本字母数量为2。
步骤1504,确定文本信息的频率信息,文本信息的频率信息用于描述文本信息在预设语料中的出现频率。
其中,文本信息的频率信息用于描述文本信息在预设语料中的出现频率。具体地,终端直接基于文本信息确定文本信息在预设语料中的出现频率,具体方式与前述实施例类似,此处不再赘述。
本实施例中,通过文本字母数量能够准确描述文本信息中所包括的字符数量,而频率信息能够考虑预设语料中可能出现的相关语料,从而通过频率信息能够描述文本信息出现的频率,使得后续所确定的文本数据特征信息类型更为准确且贴合实际,由此提升初始文本信息生成模型所学习到的文本数据特征信息类型的完整性,从而提升文本信息生成模型生成的可靠性。
在一个实施例中,如图16所示,基于文本字母序列信息确定各样本数据特征信息类型,包括:
步骤1602,对文本字母数量进行数据特征信息处理,获取文本字母数量数据特征信息,并对文本信息的频率信息进行数据特征信息处理,获取文本频率数据特征信息。
具体地,终端对文本字母数量进行数据特征信息处理,获取文本字母数量数据特征信息,同理,终端对文本字母数量数据特征信息进行数据特征信息分类处理得到数量类型。
步骤1604,对文本字母数量数据特征信息进行数据特征信息分类处理得到数量类型,并对文本频率数据特征信息进行数据特征信息分类处理得到频率类型。
具体地,终端对文本字母数量数据特征信息进行数量分类处理,得到该文本字母数量数据特征信息的文本字母数量类型。同理,终端对文本频率数据特征信息进行数据特征信息分类处理,以得到文本字母数量数据特征信息对应的频率类型。具体实施方式与前述实施例所介绍的方法类似,此处不再赘述。
本实施例中,通过不同维度的特征处理,并从两个维度对对应的数据特征信息进行归类,即更为准确地通过归类后得到的频率类型以及数量类型更为准确且描述文本简拼字母序列,使得初始文本信息生成模型能够通过各维度的特征类型更为准确地学习到简拼字母序列在不同数据特征信息维度进行归类后的信息,进一步地提升文本信息模型生成的可靠性。
基于前述实施例的详细介绍,下面将介绍本申请实施例的文本信息生成方法的完整流程,如图17所示,以该方法应用于图1中的终端102为例进行说明,可以理解的是,该方法也可以应用于服务器104,或者应用于包括服务器104和终端102的系统,并通过服务器104和终端102的交互实现。本实施例中,该方法包括以下步骤:
步骤1701,获取文本信息。
其中,文本信息由多个文本字符组成,文本字符具体为中文文字。
具体地,终端获取文本信息。文本信息的获取可以是终端通过多个对象的所输入的各历史文本信息得到的,或者为基于预设采样比例对各数据平台的文章等数据进行采样获取的,或者为基于简拼字母序列进行采样得到的。本申请不对获取文本信息的具体方式进行限定。
步骤1702,对文本信息进行字音转化处理,获取文本简拼字母序列,并确定文本字母序列信息。
其中,文本简拼字母序列由字母组成,简拼具体为文本信息中各文本字符的全拼拼音的首字母。其次,文本字母序列信息为用于描述组成文本简拼字母序列的字母的信息。
具体地,终端需要对文本信息进行字音转化处理,以获取文本简拼字母序列,其次,终端再确定文本字母序列信息,与前述实施例所介绍的字母序列信息类似,文本字母序列信息可以包括但不限于:文本简拼字母序列中字母的字母数量,文本信息在预设语料中的出现频率,文本信息描述的情感信息,简文本信息描述的实体信息等,情感信息具体可以为正向情感、中性情感以及负向情感,而实体信息具体包括但不限于,人名,职位以及物品等。本申请也不对文本字母序列信息进行限定。
步骤1703,基于文本字母序列信息确定各样本数据特征信息类型。
具体地,终端基于文本字母序列信息确定多个文本数据特征信息,各文本数据特征信息对应不同数据特征信息维度,然后终端基于各文本数据特征信息的数据特征信息维度,分别对各文本数据特征信息进行分类处理,以得到的各文本数据特征信息的样本数据特征信息类型。具体分类方法需要基于文本数据特征信息的数据特征信息维度,以及实际数据分布以及业务需求等多重维度灵活确定。
步骤1704,基于文本字母序列信息以及各样本数据特征信息类型,通过初始文本信息生成模型得到样本数据对应的预测文本信息。
其中,组成预测文本信息中的文本字符的数量,与组成文本信息中的文本字符的数量是相等的。
具体地,终端基于样本数据中的文本简拼字母序列以及多个样本数据特征信息类型,通过初始文本信息生成模型得到样本数据对应的预测文本信息。例如,文本简拼字母序列为“mtj”,样本数据特征信息类型包括字母数量的第一数量类型(字母数量处于1~5个之间),以及频率信息的频率类型(频率信息处于70%~80%之间)。此时可以输出预测文本信息“明天见”。
步骤1705,基于预测文本信息以及文本信息,更新初始文本信息生成模型的模型参数,以得到文本信息生成模型。
具体地,终端基于预测文本信息以及文本信息,更新初始文本信息生成模型的模型参数,以得到文本信息生成模型。
通过前述方式获取文本信息生成模型之后,在实际需要进行文本信息生成时,具体包括:
步骤1706,获取简拼字母序列,并确定简拼字母序列的字母序列信息。
其中,简拼字母序列由字母组成,简拼具体为文本信息中各文本字符的全拼拼音的首字母。其次,字母序列信息为用于描述组成简拼字母序列的字母的信息。
具体地,对象在可以通过键盘输入简拼字母序列,使得终端获取简拼字母序列。终端获取简拼字母序列后,还能够基于组成简拼字母序列的字母的信息确定简拼字母序列的字母序列信息。
步骤1707,获取描述数据信息。
其中,描述数据信息包括对象信息和场景信息中至少一项。即描述数据信息包括对象信息,或场景信息,或对象信息和场景信息。前述对象信息用于描述输入简拼字母序列的对象对应的信息,例如,对象的年龄信息、性别信息、教育程度信息、常住地区信息等。其次,场景信息用于描述对象输入简拼字母序列的所在场景,例如,聊天场景、工作场景、旅游场景、购物场景、娱乐场景以及游戏场景等。
具体地,终端在获取简拼字母序列时,还能够获取描述数据信息。描述数据信息可以为对象上报的信息,也可以为终端基于对象授权或者经过各方充分授权所获取的信息,或基于所使用的应用类型确定的信息。此处不对如何获取描述数据信息的方法进行限定。
步骤1708,基于简拼字母序列以及描述数据信息,确定语义特征信息。
其中,语义特征信息用于描述简拼字母序列所描述的语义特征。由于不同的对象以及在不同场景下,简拼字母序列所想要描述的语义可能存在差异,因此在确定简拼字母序列的语义特征信息时,还应该考虑输入简拼字母序列的对象,或输入简拼字母序列的场景。因此,语义特征信息可以包括多个对简拼字母序列的预测语义特征。
步骤1709,基于语义特征信息以及简拼字母序列确定字母序列信息。
其中,字母序列信息包括字母数量以及频率信息。其次,字母数量为组成简拼字母序列的字母的总数。以及,简拼字母序列的频率信息用于描述简拼字母序列在预设语料中的出现频率。
应理解,在实际应用中,字母序列信息还可以为简拼字母序列描述的情感信息,简拼字母序列描述的实体信息等,情感信息具体可以为正向情感、中性情感以及负向情感,而实体信息具体包括但不限于,人名,职位以及物品等。本申请不对字母序列信息进行限定。
具体地,终端确定简拼字母序列所包括的字母数量。且通过获取语义特征信息对简拼字母序列的预测语义在预设语料中的出现次数,以及确定在预设语料中字符数量为字母数量的语料的总数,取上述比值确定出现频率。具体计算公式请再次参阅公式(1)。
步骤1710,基于字母序列信息确定多个数据特征信息。
其中,数据特征信息用于描述在对应的数据特征信息维度下简拼字母序列的数据特征信息,因此多个数据特征信息中的每个数据特征信息均对应不同数据特征信息维度。
具体地,终端基于字母序列信息确定多个数据特征信息,且每个数据特征信息对应不同数据特征信息维度。例如,若字母序列信息为简拼字母序列中字母的字母数量,那么可以得到用于描述字母数量的数据特征信息,即从数量数据特征信息维度描述简拼字母序列的特征。其次,若字母序列信息为简拼字母序列在预设语料中的出现频率,那么可以得到用于描述频率信息的数据特征信息,即从频率数据特征信息维度描述简拼字母序列的特征。
步骤1711,确定各数据特征信息的数据特征信息类型。
其中,数据特征信息类型用于描述数据特征信息在对应的数据特征信息维度下的类型。
具体地,终端基于各数据特征信息的数据特征信息维度,分别对各数据特征信息进行分类处理,以得到的各数据特征信息的数据特征信息类型。具体分类方法需要基于数据特征信息的数据特征信息维度,以及实际数据分布以及业务需求等多重维度灵活确定。例如,若字母序列信息为简拼字母序列中字母的字母数量,那么可以得到用于描述字母数量的数据特征信息,然后再基于字母数量这一数据特征信息维度,对用于描述字母数量的数据特征信息进行分类,即可以得到在字母数量下的数据特征信息类型。
步骤1712,基于简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与简拼字母序列匹配的目标文本信息。
具体地,终端基于所得到的简拼字母序列以及数据特征信息类型,通过前述方式所得到的文本信息生成模型获取与简拼字母序列匹配的目标文本信息。其中,目标文本信息可以为单个文本信息,也可以包括多个文本信息。
应理解,步骤1701至步骤1712的具体实施方式已在前述实施例中详细介绍,此处不再赘述。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的文本信息生成方法的文本信息生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文本信息生成装置实施例中的具体限定可以参见上文中对于文本信息生成方法的限定,在此不再赘述。
在一个实施例中,如图18所示,提供了一种文本信息生成装置,包括:获取模块1802、确定模块1804和文本信息生成模块1806,其中:
获取模块1802,用于获取简拼字母序列,并确定简拼字母序列的字母序列信息,简拼字母序列由字母组成;
确定模块1804,用于基于字母序列信息确定多个数据特征信息,各数据特征信息对应不同数据特征信息维度;并确定各数据特征信息的数据特征信息类型,数据特征信息类型用于描述数据特征信息在对应的数据特征信息维度下的类型;
文本信息生成模块1806,用于基于简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与简拼字母序列匹配的目标文本信息。
在一个实施例中,确定模块1804,还用于基于简拼字母序列确定简拼字母序列的语义特征信息;并基于基于语义特征信息以及简拼字母序列确定字母序列信息。;
在一个实施例中,获取模块1802,还用于获取描述数据信息,描述数据信息包括对象信息和场景信息中至少一项;
确定模块1804,还用于基于简拼字母序列以及描述数据信息,确定语义特征信息。
在一个实施例中,确定模块1804,还用于基于简拼字母序列确定简拼字母序列所包括的字母数量;并基于语义特征信息以及字母数量确定简拼字母序列的频率信息,简拼字母序列的频率信息用于描述简拼字母序列在预设语料中的出现频率。
在一个实施例中,确定模块1804,还用于基于字母数量确定简拼字母序列的字母数量数据特征信息;并基于简拼字母序列的频率信息,确定简拼字母序列的频率数据特征信息。
在一个实施例中,确定模块1804,还用于对字母数量数据特征信息进行数量分类处理,得到字母数量数据特征信息的字母数量类型;并对频率数据特征信息进行频率分类处理,得到频率数据特征信息的频率类型。
在一个实施例中,文本信息生成装置还包括模型获取模块1808;
模型获取模块1808,用于获取文本信息,文本信息由多个文本字符组成;并基于文本信息获取样本数据,样本数据包括文本信息对应的文本简拼字母序列以及多个样本数据特征信息类型,文本简拼字母序列包括各文本字符对应的首字母,样本数据特征信息类型用于描述样本数据特征信息在对应的数据特征信息维度下的类型;并基于样本数据通过初始文本信息生成模型得到样本数据对应的预测文本信息;并基于预测文本信息以及文本信息,更新初始文本信息生成模型的模型参数,以得到文本信息生成模型。
在一个实施例中,模型获取模块1808,还用于对文本信息进行字音转化处理,获取文本简拼字母序列,并确定文本字母序列信息;并基于文本字母序列信息确定各样本数据特征信息类型。
在一个实施例中,模型获取模块1808,还用于对文本信息进行字音转化处理为文本全拼拼音序列,文本全拼拼音序列包括各文本字符的全拼拼音;并对全拼拼音样本序列进行简拼采样得到文本简拼字母序列。
在一个实施例中,模型获取模块1808,还用于确定文本简拼字母序列中各文本字符对应的首字母的文本字母数量;并确定文本信息的频率信息,文本信息的频率信息用于描述文本信息在预设语料中的出现频率;其中,文本字母序列信息包括文本字母数量以及文本信息的频率信息。
在一个实施例中,模型获取模块1808,还用于对文本字母数量进行数据特征信息处理,获取文本字母数量数据特征信息,并对文本信息的频率信息进行数据特征信息处理,获取文本频率数据特征信息;并对文本字母数量数据特征信息进行数据特征信息分类处理得到数量类型,并对文本频率数据特征信息进行数据特征信息分类处理得到频率类型。
上述文本信息生成装置中的各模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图19所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本信息生成方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图19中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征信息可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征信息所有可能的组合都进行描述,然而,只要这些技术特征信息的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (15)
1.一种文本信息生成方法,其特征在于,所述方法包括:
获取简拼字母序列,并确定所述简拼字母序列的字母序列信息,所述简拼字母序列由字母组成;
基于所述字母序列信息确定多个数据特征信息,各所述数据特征信息对应不同数据特征信息维度;
确定各所述数据特征信息的数据特征信息类型,所述数据特征信息类型用于描述所述数据特征信息在对应的数据特征信息维度下的类型;
基于所述简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与所述简拼字母序列匹配的目标文本信息。
2.根据权利要求1所述的方法,其特征在于,所述确定所述简拼字母序列的字母序列信息,包括:
基于所述简拼字母序列确定所述简拼字母序列的语义特征信息;
基于所述语义特征信息以及所述简拼字母序列确定所述字母序列信息。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取描述数据信息,所述描述数据信息包括对象信息和场景信息中至少一项;
所述基于所述简拼字母序列确定所述简拼字母序列的语义特征信息,包括:
基于所述简拼字母序列以及所述描述数据信息,确定所述语义特征信息。
4.根据权利要求2所述的方法,其特征在于,所述基于所述语义特征信息以及所述简拼字母序列确定所述字母序列信息,包括:
基于所述简拼字母序列确定所述简拼字母序列所包括的字母数量;
基于所述语义特征信息以及所述字母数量确定所述简拼字母序列的频率信息,所述简拼字母序列的频率信息用于描述所述简拼字母序列在预设语料中的出现频率;
其中,所述字母序列信息包括所述字母数量以及所述简拼字母序列的频率信息。
5.根据权利要求4所述的方法,其特征在于,基于所述字母序列信息确定多个数据特征信息,包括:
基于所述字母数量确定所述简拼字母序列的字母数量数据特征信息;
基于所述简拼字母序列的频率信息,确定所述简拼字母序列的频率数据特征信息。
6.根据权利要求5所述的方法,其特征在于,所述确定各所述数据特征信息的数据特征信息类型,包括:
对所述字母数量数据特征信息进行数量分类处理,得到所述字母数量数据特征信息的字母数量类型;
对所述频率数据特征信息进行频率分类处理,得到所述频率数据特征信息的频率类型。
7.根据权利要求1所述的方法,其特征在于,所述文本信息生成模型的获取方法包括:
获取文本信息,所述文本信息由多个文本字符组成;
基于所述文本信息获取样本数据,所述样本数据包括所述文本信息对应的文本简拼字母序列以及多个样本数据特征信息类型,所述文本简拼字母序列包括各所述文本字符对应的首字母,所述样本数据特征信息类型用于描述样本数据特征信息在对应的数据特征信息维度下的类型;
基于所述样本数据通过初始文本信息生成模型得到所述样本数据对应的预测文本信息;
基于所述预测文本信息以及所述文本信息,更新所述初始文本信息生成模型的模型参数,以得到所述文本信息生成模型。
8.根据权利要求7所述的方法,其特征在于,所述基于所述文本信息获取样本数据,包括:
对所述文本信息进行字音转化处理,获取所述文本简拼字母序列,并确定文本字母序列信息;
基于所述文本字母序列信息确定各所述样本数据特征信息类型。
9.根据权利要求8所述的方法,其特征在于,所述对所述文本信息进行字音转化处理,获取所述文本简拼字母序列,包括:
对所述文本信息进行字音转化处理为文本全拼拼音序列,所述文本全拼拼音序列包括各所述文本字符的全拼拼音;
对所述全拼拼音样本序列进行简拼采样得到所述文本简拼字母序列。
10.根据权利要求8所述的方法,其特征在于,所述确定文本字母序列信息,包括:
确定所述文本简拼字母序列中各所述文本字符对应的首字母的文本字母数量;
确定所述文本信息的频率信息,所述文本信息的频率信息用于描述所述文本信息在预设语料中的出现频率;
其中,所述文本字母序列信息包括文本字母数量以及所述文本信息的频率信息。
11.根据权利要求10所述的方法,其特征在于,所述基于所述文本字母序列信息确定各所述样本数据特征信息类型,包括:
对所述文本字母数量进行数据特征信息处理,获取文本字母数量数据特征信息,并对所述文本信息的频率信息进行数据特征信息处理,获取所述文本频率数据特征信息;
对所述文本字母数量数据特征信息进行数据特征信息分类处理得到数量类型,并对所述文本频率数据特征信息进行数据特征信息分类处理得到频率类型。
12.一种文本信息生成装置,其特征在于,所述装置包括:
获取模块,用于获取简拼字母序列,并确定所述简拼字母序列的字母序列信息,所述简拼字母序列由字母组成;
确定模块,用于基于所述字母序列信息确定多个数据特征信息,各所述数据特征信息对应不同数据特征信息维度;并确定各所述数据特征信息的数据特征信息类型,所述数据特征信息类型用于描述所述数据特征信息在对应的数据特征信息维度下的类型;
文本信息生成模块,用于基于所述简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与所述简拼字母序列匹配的目标文本信息。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211245518.2A CN117010334A (zh) | 2022-10-12 | 2022-10-12 | 文本信息生成方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211245518.2A CN117010334A (zh) | 2022-10-12 | 2022-10-12 | 文本信息生成方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117010334A true CN117010334A (zh) | 2023-11-07 |
Family
ID=88566081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211245518.2A Pending CN117010334A (zh) | 2022-10-12 | 2022-10-12 | 文本信息生成方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117010334A (zh) |
-
2022
- 2022-10-12 CN CN202211245518.2A patent/CN117010334A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107836000B (zh) | 用于语言建模和预测的改进的人工神经网络方法、电子设备 | |
CN118349673A (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN113672708B (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
EP4310695A1 (en) | Data processing method and apparatus, computer device, and storage medium | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
JP2022502758A (ja) | 符号化方法、装置、機器およびプログラム | |
CN117762499B (zh) | 任务指令构建方法和任务处理方法 | |
CN114648032A (zh) | 语义理解模型的训练方法、装置和计算机设备 | |
CN118378148A (zh) | 多标签分类模型的训练方法、多标签分类方法及相关装置 | |
CN114330704A (zh) | 语句生成模型更新方法、装置、计算机设备和存储介质 | |
CN118013031A (zh) | 提示词的确定方法、装置、计算机设备以及存储介质 | |
CN113342944A (zh) | 一种语料泛化方法、装置、设备及存储介质 | |
Liu | POI recommendation model using multi-head attention in location-based social network big data | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN115952266A (zh) | 问题生成方法、装置、计算机设备和存储介质 | |
CN117010334A (zh) | 文本信息生成方法、装置、计算机设备和存储介质 | |
CN111259650A (zh) | 基于类标序列生成式对抗模型的文本自动生成方法 | |
CN110347813A (zh) | 一种语料处理方法、装置、存储介质及电子设备 | |
CN115455306B (zh) | 推送模型训练、信息推送方法、装置和存储介质 | |
CN117931858B (zh) | 数据查询方法、装置、计算机设备和存储介质 | |
CN116992875B (zh) | 文本生成方法、装置、计算机设备和存储介质 | |
CN117453879A (zh) | 对话数据的生成方法、装置、计算机设备和存储介质 | |
CN116881122A (zh) | 测试案例生成方法、装置、设备、存储介质和程序产品 | |
CN118839000A (zh) | 对话回复的生成方法、装置、设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |