CN114117034B - 一种基于智能模型推送不同风格文本的方法和装置 - Google Patents
一种基于智能模型推送不同风格文本的方法和装置 Download PDFInfo
- Publication number
- CN114117034B CN114117034B CN202111311374.1A CN202111311374A CN114117034B CN 114117034 B CN114117034 B CN 114117034B CN 202111311374 A CN202111311374 A CN 202111311374A CN 114117034 B CN114117034 B CN 114117034B
- Authority
- CN
- China
- Prior art keywords
- text
- style
- data
- user
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例涉及一种基于智能模型推送不同风格文本的方法和装置,所述方法包括:定期使用文本风格智能识别模型对各个用户进行文本风格识别处理生成第一用户文本风格数据;获取原文本数据;将原文本数据输入文本风格智能识别模型中进行文本风格识别生成原文本风格数据;对最近的与当前用户对应的多个第一用户文本风格数据进行文本风格综合评估生成第一评估风格数据;第一评估风格数据为无风格类型推送原文本数据;不为无风格类型时,对第一评估风格数据与原文本风格数据进行比对;若匹配则推送原文本数据;若不匹配则将原文本数据进行文本风格转换得到对应的新文本数据,并推送新文本数据。本发明解决了推送风格单一的问题、提高了用户体验。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于智能模型推送不同风格文本的方法和装置。
背景技术
随着人工智能技术的兴起与发展,常规的信息展示平台与社交平台为提高用户体验,已经开始在平台上增加具有智能应答与智能推送功能的聊天机器人角色了。然而我们在实际应用中发现,当前这些虚拟的聊天机器人在处理内容推送时其推送内容的风格都是相同的或者说都是基于机器人自身风格定制的,并不会根据用户的风格倾向进行变化。
发明内容
本发明的目的,就是针对现有技术的缺陷,提供一种基于智能模型推送不同风格文本的方法、装置、电子设备及计算机可读存储介质,定期、持续地使用智能模型分析各个时段用户的文本风格类型偏向,并在每次向用户进行内容推送之前都对用户当前最大可能的文本风格类型偏向进行确认,在确认了用户偏向之后再对推送内容的文本风格进行核准,若推送风格与用户偏向不匹配则使用智能模型将推送本文的风格调整到与用户偏向一致。如此一来,既可以解决目前推送风格单一的问题、提高用户体验,又可以对用户的风格变化趋势进行持续跟踪,从而也为精准推送提供了数据支撑。
为实现上述目的,本发明实施例第一方面提供了一种基于智能模型推送不同风格文本的方法,所述方法包括:
定期使用训练成熟的文本风格智能识别模型,对各个用户进行文本风格识别处理,生成对应的第一用户文本风格数据并保存;
在向任一用户进行文本推送处理时,获取用于推送的原文本数据;
将所述原文本数据输入所述文本风格智能识别模型中进行文本风格识别处理,生成原文本风格数据;
并对最近的与当前用户对应的多个所述第一用户文本风格数据,进行文本风格综合评估处理,生成第一评估风格数据;
当所述第一评估风格数据为无风格类型时,向当前用户推送所述原文本数据;
当所述第一评估风格数据不为无风格类型时,对所述第一评估风格数据与所述原文本风格数据进行比对;若所述第一评估风格数据与所述原文本风格数据匹配,则向当前用户推送所述原文本数据;若所述第一评估风格数据与所述原文本风格数据不匹配,则将所述原文本数据和所述第一评估风格数据输入训练成熟的文本风格智能转换模型进行文本风格转换处理,得到对应的新文本数据,并向当前用户推送所述新文本数据。
优选的,所述定期使用训练成熟的文本风格智能识别模型,对各个用户进行文本风格识别处理,生成对应的第一用户文本风格数据并保存,具体包括:
定期对各个用户进行信息采集处理,生成对应的第一采集数据集合;其中,所述第一采集数据集合包括第一互动数据集合、第二互动数据集合和第一文章数据集合;所述第一互动数据集合包括第一时间段内当前用户与聊天机器人互动的所有文本和或语音数据;所述第二互动数据集合包括所述第一时间段内当前用户与其他用户互动的所有文本和或语音数据;所述第一文章数据集合包括所述第一时间段内当前用户阅读过的所有文章数据;所述第一时间段为前次信息采集日期到当次信息采集日期间的时间段;
对所述第一采集数据集合中的语音数据,使用训练成熟的端到端语音识别模型进行识别生成对应的文本数据,并使用识别出的文本数据对原语音数据进行替换;
若所述第一采集数据集合不为空,则将所述第一采集数据集合输入所述文本风格智能识别模型进行文本风格识别处理,生成所述第一用户文本风格数据并保存;
若所述第一采集数据集合为空,则设置所述第一用户文本风格数据为无风格类型并保存;
创建当前用户与所述第一用户文本风格数据的对应关系并保存。
优选的,所述端到端语音识别模型包括连接时序分类CTC模型和注意力Attention模型。
优选的,所述文本风格智能识别模型包括文本分句模块、文本分词模块、文本降噪模块、文本向量准备模块、文本分类模型和分类决策模块;所述文本分类模型包括基于卷积神经网络CNN的文本分类模型、基于循环神经网络RNN的文本分类模型和基于长短期记忆人工神经网络LSTM+注意力机制的文本分类模型;
在进行文本风格识别处理时,所述文本风格智能识别模型的所述文本分句模块以句为单位对对输入数据进行分句处理得到多个第一文句数据;所述文本分词模块对各个第一文句数据进行分词处理,得到第一分词数据集合;所述文本降噪模块根据预设的停用词列表,对所述第一分词数据集合进行停用词删除处理,生成第二分词数据集合;所述文本向量准备模块按所述文本分类模型的输入张量要求,对所述第二分词数据集合进行文本向量转换处理,生成第一输入张量;所述文本分类模型对所述第一输入张量进行文本分类处理,得到多个分类概率;所述分类决策模块选取概率值最大的所述分类概率对应的分类类型作为所述文本风格识别处理的输出结果。
优选的,所述对最近的与当前用户对应的多个所述第一用户文本风格数据,进行文本风格综合评估处理,生成第一评估风格数据,具体包括:
选择当前用户最近的第一指定数量N个所述第一用户文本风格数据,作为第一评估数据集合[S1,S2…Si…SN];Si为所述第一用户文本风格数据,i的取值从1到N;其中,S1为距离当前最近的第一用户文本风格数据、S2为距离当前第二近的第一用户文本风格数据、SN为距离当前最远的第一用户文本风格数据;
对所述第一评估数据集合[S1,S2…Si…SN]中每个Si加权,生成第二评估数据集合[W1*S1,W2*S2…Wi*Si…WN*SN];其中,Wi为Si的权益系数,W1到WN依次减小;
在所述第二评估数据集合[W1*S1,W2*S2…Wi*Si…WN*SN]中,将取值相同的第一用户文本风格数据Si的权益系数进行总和统计,得到多个第一权益系数总和数据;并将总和值最大的第一权益系数总和数据对应的第一用户文本风格数据作为所述第一评估风格数据。
优选的,所述文本风格智能转换模型包括输入模块、编码模块和解码模块;所述编码模块包括内容编码单元和风格编码单元;所述解码模块包括内容解码单元、风格解码单元和输出单元。
优选的,所述将所述原文本数据和所述第一评估风格数据输入训练成熟的文本风格智能转换模型进行文本风格转换处理,得到对应的新文本数据,具体包括:
所述文本风格智能转换模型的所述输入模块对所述原文本数据按句进行拆分,生成多个第二文句数据;并对所述第二文句数据进行分词处理,生成第一分词序列;并对所述第一分词序列进行词性识别处理,生成第一词性序列;并对所述第一分词序列进行词向量转换处理得到第一分词张量;并对所述第一词性序列进行词向量转换处理得到第一词性张量;再对所述第一分词张量和所述第一词性张量进行拼接,生成第一编码输入张量;
所述编码模块的所述内容编码单元对所述第一编码输入张量进行内容特征提取处理,生成第一内容特征张量;所述编码模块的所述风格编码单元对所述第一编码输入张量进行文本风格特征提取处理,生成第一风格特征张量;
所述解码模块的所述内容解码单元对所述第一内容特征张量进文本解码处理,生成第二内容特征张量;所述解码模块的所述风格解码单元使用与所述第一评估风格数据对应的风格矩阵与风格偏置系数对所述第一风格特征张量进风格解码处理,生成第二风格特征张量;
所述解码模块的所述输出单元对所述第二内容特征张量与所述第二风格特征张量进行融合处理并对融合结果进行文本转换处理,从而得到与当前第二文句数据对应的第三文句数据;并将得到的所有第三文句数据组成所述新文本数据。
本发明实施例第二方面提供了一种基于智能模型推送不同风格文本的装置以实现上述第一方面所述的方法步骤,包括:用户跟踪模块和用户内容推送模块;
所述用户内容推送模块包括原文数据获取模块、原文风格识别模块、用户风格评估模块和风格内容推送模块;
所述用户跟踪模块用于定期使用训练成熟的文本风格智能识别模型,对各个用户进行文本风格识别处理,生成对应的第一用户文本风格数据并保存;
所述原文数据获取模块用于在向任一用户进行文本推送处理时,获取用于推送的原文本数据;
所述原文风格识别模块用于将所述原文本数据输入所述文本风格智能识别模型中进行文本风格识别处理,生成原文本风格数据;
所述用户风格评估模块对最近的与当前用户对应的多个所述第一用户文本风格数据,进行文本风格综合评估处理,生成第一评估风格数据;
所述风格内容推送模块用于当所述第一评估风格数据为无风格类型时,向当前用户推送所述原文本数据;当所述第一评估风格数据不为无风格类型时,对所述第一评估风格数据与所述原文本风格数据进行比对;若所述第一评估风格数据与所述原文本风格数据匹配,则向当前用户推送所述原文本数据;若所述第一评估风格数据与所述原文本风格数据不匹配,则将所述原文本数据和所述第一评估风格数据输入训练成熟的文本风格智能转换模型进行文本风格转换处理,得到对应的新文本数据,并向当前用户推送所述新文本数据。
本发明实施例第三方面提供了一种电子设备,包括:存储器、处理器和收发器;
所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现上述第一方面所述的方法步骤;
所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
本发明实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行上述第一方面所述的方法的指令。
本发明实施例提供了一种基于智能模型推送不同风格文本的方法、装置、电子设备及计算机可读存储介质,定期、持续地使用智能模型分析各个时段用户的文本风格类型偏向,并在每次向用户进行内容推送之前都对用户当前最大可能的文本风格类型偏向进行确认,在确认了用户偏向之后再对推送内容的文本风格进行核准,若推送风格与用户偏向不匹配则使用智能模型将推送本文的风格调整到与用户偏向一致。通过本发明方法,既解决了目前推送风格单一的问题、提高了用户体验,又可以同时对用户的风格变化趋势进行持续跟踪,为精准推送提供了数据支撑。
附图说明
图1为本发明实施例一提供的一种基于智能模型推送不同风格文本的方法示意图;
图2为本发明实施例一提供的文本风格智能识别模型示意图;
图3为本发明实施例一提供的文本风格智能转换模型示意图;
图4为本发明实施例二提供的一种基于智能模型推送不同风格文本的装置的模块结构图;
图5为本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
信息展示平台或社交平台通过本发明实施例一提供一种基于智能模型推送不同风格文本的方法对用户信息进行定期采集、分析从而实现对用户的文本风格的持续跟踪,并在向用户推送内容信息时,先根据对用户近期的跟踪结果评估当下用户最大可能的文本风格倾向,并根据用户倾向对推送内容的文本风格进行调整从而实现了以用户风格为前提的内容推送办法,改变了以往推送风格单一的情况、提高了用户体验、并为根据用户喜好高精度定制推送内容奠定了数据基础,图1为本发明实施例一提供的一种基于智能模型推送不同风格文本的方法示意图,如图1所示,本方法主要包括如下步骤:
步骤1,定期使用训练成熟的文本风格智能识别模型,对各个用户进行文本风格识别处理,生成对应的第一用户文本风格数据并保存;
这里,信息展示平台或社交平台通过定期收集各个用户的平台内信息,对用户进行文本风格进行识别;
具体包括:步骤11,定期对各个用户进行信息采集处理,生成对应的第一采集数据集合;
其中,第一采集数据集合包括第一互动数据集合、第二互动数据集合和第一文章数据集合;第一互动数据集合包括第一时间段内当前用户与聊天机器人互动的所有文本和或语音数据;第二互动数据集合包括第一时间段内当前用户与其他用户互动的所有文本和或语音数据;第一文章数据集合包括第一时间段内当前用户阅读过的所有文章数据;第一时间段为前次信息采集日期到当次信息采集日期间的时间段;
这里,采集的数据主要包括三大类:用户与聊天机器人的聊天数据(文本或语音)也就是第一互动数据集合,与其他用户的聊天数据(文本或语音)也就是第二互动数据集合,对平台公示的文章的阅读信息也就是第一文章数据集合;采集数据的时间性并不是历史上的所有数据,而是从上次采集后到当前时间这个时间段,所以第一时间段指定为前次信息采集日期到当次信息采集日期间的时间段;第一时间段的长短可以反映出平台对用户进行信息采集的频率,第一时间段通常会被预先设定,例如设为一周或一天,若为一周则说明每隔一周就会对用户进行一次数据采集、若为一天则说明每天都会对用户进行一次数据采集;
在采集数据时,第一互动数据集合和第二互动数据集合只采集用户自己的聊天内容,并不采集对方(聊天机器人和其他用户)的聊天内容;通过分析第一互动数据集合和第二互动数据集合能够对用户的阶段性生活用语习惯有所了解,因为人的生活用语习惯与其阅读习惯有较强的关联性,所以会在后续步骤中将其作为分析数据之一来进行用户的文本风格识别处理;第一互动数据集合和第二互动数据集合中都包括两个数据子集:文本数据子集和语音数据子集;文本数据子集由多条文本聊天记录组成,若每条聊天记录的结束符号不为句号,则为其增加一个句号作为断句符号;语音数据子集由多条语音聊天记录组成;
在采集数据时,第一文章数据集合由多个用户阅读过的文章也就是第一文章数据组成,第一文章数据具体为某篇文章的所有文本信息,包括第一标题数据和第一内容数据;通过分析第一文章数据集合能够直观地获知该用户偏向的文本风格,所以会在后续步骤中将其作为分析数据之一来进行用户的文本风格识别处理;本发明实施例在采集完第一文章数据后会为第一标题数据增加一个句号作为断句符号,还会将第一内容数据中类似图片链接、网页链接这样与文本内容无关的信息滤除掉,从而保证第一内容数据中的文本信息都是由一个接一个完整的有句号的句子构成的数据集;
步骤12,对第一采集数据集合中的语音数据,使用训练成熟的端到端语音识别模型进行识别生成对应的文本数据,并使用识别出的文本数据对原语音数据进行替换;
其中,端到端语音识别模型包括连接时序分类(Connectionist temporalclassification,CTC)模型和注意力Attention模型;
这里,如上文所述,第一互动数据集合和第二互动数据集合中都包含了语音数据子集,本发明实施例后续使用的文本风格智能识别模型是基于文本信息进行风格特征识别的,所以要先对语音数据子集进行语音-文本的转换;本发明实施例在处理语音-文本转换时,使用可持续提高精度的人工智能模型进行分析,并且具体使用的是可以直接输出文本信息的端到端语音识别模型;常规情况下,本发明实施例使用的端到端语音识别模型包括两类:CTC模型及其扩展类模型和Attention模型及其扩展类模型;若语音较短常采用Attention模型及其扩展类模型,若语音较长则选用CTC模型及其扩展类模型;
在使用端到端语音识别模型进行识别之前,需要对CTC模型及其扩展类模型和或Attention模型及其扩展类模型进行训练,训练时将训练语音数据输入模型得到一个输出文本数据,并使用与训练语音数据匹配的训练文本数据对输出文本数据进行检验得到一个匹配概率,并根据该匹配概率对模型进行反向调制直到模型最终输出的文本与训练文本的匹配度收敛到一个合理阈值范围为止;
在对语音数据子集中的语音数据进行文本转换时,平台使用端到端语音识别模型对所有语音聊天记录进行依次识别得到对应的文本数据,然后在得到的文本数据后增加一个句号作为结束符,然后使用带有结束符的文本数据替换语音数据子集中对应的语音数据;在完成语音数据子集中所有语音聊天记录的文本替换之后,新的第一采集数据集合内就只包括文本数据了;
需要说明的是,若当前用户在本次数据采集对应的时间段内,并未在平台内产生任何信息数据沉淀:未与聊天机器人沟通、未与其他用户沟通、未阅读过任何一篇文章甚至根本没有登录过信息展示平台或社交平台,那么本次采集的第一采集数据集合不会包含任何内容,本麻烦实施例会默认设置其为空;
步骤13,若第一采集数据集合不为空,则将第一采集数据集合输入文本风格智能识别模型进行文本风格识别处理,生成第一用户文本风格数据并保存;
其中,文本风格智能识别模型包括文本分句模块、文本分词模块、文本降噪模块、文本向量准备模块、文本分类模型和分类决策模块;文本分类模型包括基于卷积神经网络(Convolutional Neural Networks,CNN)的文本分类模型、基于循环神经网络(RecurrentNeural Network,RNN)的文本分类模型和基于长短期记忆人工神经网络(Long Short-TermMemory,LSTM)+注意力Attention机制的文本分类模型;
这里,如果第一采集数据集合不为空,则本发明实施例会使用训练成熟的文本风格智能识别模型对第一采集数据集合进行识别,从而得到这一阶段用户的文本风格偏向;这里的文本风格智能识别模型的逻辑结构如图2为本发明实施例一提供的文本风格智能识别模型示意图所示,包括文本分句模块、文本分词模块、文本降噪模块、文本向量准备模块、文本分类模型和分类决策模块;其中,文本分类模型常规采用可通过训练持续提高精度的人工智能模型,具体包括基于CNN的文本分类模型如TextCNN模型、基于RNN的文本分类模型如TextRNN模型、基于LSTM+Attention机制的文本分类模型如TextRCNN模型;
在使用文本分类模型之前,本发明实施例会基于多个文本风格类型的词料库对其进行训练,从词料库中提取训练词语或短句输入文本分类模型中进行类型预测得到由多个预测风格类型概率组成的概率向量,并根据输出的概率向量得到模型的损失函数值,并根据损失函数值对模型进行反向调制,直到最终损失函数能够收敛到一个合理范围;
在进行文本风格识别处理时,文本风格智能识别模型首先对输入的数据进行分句、分词、删除停用词、和张量转换处理得到文本分类模型所需的输入张量,然后使用文本分类模型对输入张量进行文本风格分类处理得到多个分类概率,然后再从中以最大值作为最终的分类预测结果;文本风格识别处理的具体执行步骤包括:
步骤A1,文本风格智能识别模型的文本分句模块以句为单位对对输入数据进行分句处理得到多个第一文句数据;
这里,输入数据具体为第一采集数据集合,由上文可知此处的第一采集数据集合是由带有句号(结束符)的文句组成的文本数据集合;文本分句模块用于根据指定结束符号也就是句号,对第一采集数据集合进行循环文句提取,并对每次提取出的文句按指定语种(例如中文、英文等)做非语言文字的符号过滤处理也即是将文句中的非指定语言文字(例如中文汉字、英文字母等)的文本内容(例如标点符号、数字等内容)进行删除,必将符号过滤处理后的文句作为第一文句数据;
步骤A2,文本分词模块对各个第一文句数据进行分词处理,得到第一分词数据集合;
这里,文本分词模块至少包括一个语言词典和一个分词模型,分词模型常规使用隐马尔可夫模型(Hidden Markov Model,HMM);文本分词模块用于将输入的第一文句数据输入分词模型,并由分词模型依据语言词典对第一文句数据进行分词处理得到一个概率最大的分词序列也就是第一分词数据集合;
步骤A3,文本降噪模块根据预设的停用词列表,对第一分词数据集合进行停用词删除处理,生成第二分词数据集合;
这里,在得到了第一分词数据集合,为提高后续文本分类模型的预测精度、同时也为了降低后续文本分类模型的计算量,本发明实施例还会对第一分词数据集合中的一些对文本风格分类无意义的字词进行剔除,这种字词被称之为停用词;停用词列表即是预先设定的常规停用词的数据列表或字典;文本降噪模块用于根据第一分词数据集合中的各个分词数据对停用词列表进行查询,若查询结果显示当前分词已被列入停用词列表则将当前分词从第一分词数据集合中删除;第二分词数据集合即为完成所有停用词删除的第一分词数据集合;
步骤A4,文本向量准备模块按文本分类模型的输入张量要求,对第二分词数据集合进行文本向量转换处理,生成第一输入张量;
这里,文本向量准备模块用于将第二分词数据集合转换为由多个词向量组成的多维张量也就是第一输入张量;
步骤A5,文本分类模型对第一输入张量进行文本分类处理,得到多个分类概率;
这里,文本分类模型用于对第一输入张量进行文本特征提取,并根据提取的特征进行分类识别,并输出由多个分类概率组成的分类向量;其中每个分类概率对应一个分类类别,这里的分类类别就是模型训练时的文本风格类型;
步骤A6,分类决策模块选取概率值最大的分类概率对应的分类类型作为文本风格识别处理的输出结果;
这里,分类决策模块用于对文本分类模型输出的多个分类概率进最优决策,也就是从多个分类概率中选择最大概率值作为最优分类概率,并将最优分类概率所对应的分类类别也就是文本风格类型作为输出数据进行输出;
由上述步骤A1-A6我们可知,对于步骤13而言,将第一采集数据集合输入文本风格智能识别模型进行文本风格识别处理后,生成的第一用户文本风格数据也就是步骤A6输出的最优分类概率所对应的文本风格类型;
步骤14,若第一采集数据集合为空,则设置第一用户文本风格数据为无风格类型并保存;
这里,如果第一采集数据集合为空,意味着本次集采对应的第一时间段内用户未在信息展示平台或社交平台内产生任何信息数据沉淀,也即本次没有集采数据可以分析,那么本发明实施例默认本次用户的文本风格识别结果也就是第一用户文本风格数据为无风格类型;
步骤15,创建当前用户与第一用户文本风格数据的对应关系并保存。
这里,在完成本次用户信息采集以及对应的文本风格识别之后,需要将识别结果也就是第一用户文本风格数据存入对应用户的文本风格跟踪数据列表中;该文本风格跟踪数据列表由多个文本风格跟踪数据记录组成,每个文本风格跟踪数据记录对应一个用户在一次信息采集后的文本分析识别结果;文本风格跟踪数据记录至少包括用户标识字段、文本风格字段和记录生成时间字段;其中,用户标识字段对应用户的唯一身份辨识,文本风格字段对应当前用户在一次信息采集后的文本分析识别结果也就是第一用户文本风格数据,记录生成时间字段对应当前文本风格跟踪数据记录的生成时间信息;不难看出,通过分析用户的文本风格跟踪数据列表,还可以得到每个用户文本风格随时间变化的曲线。
步骤2,在向任一用户进行文本推送处理时,获取用于推送的原文本数据。
这里,原文本数据即是信息展示平台或社交平台计划向用户推送的文本信息,该文本信息由多条带有句号的语句组成。该文本信息带有初设的文本风格,例如,若采用聊天机器人作为推送对象则该文本信息的初设文本风格应与聊天机器人的文本风格一致,诸如感性、活泼、简单、轻松、幽默等;若采用信息展示平台或社交平台直推的方式则该文本信息的初设文本风格应与信息展示平台或社交平台的默认文本风格一致,诸如理性、严谨、概要等。
步骤3,将原文本数据输入文本风格智能识别模型中进行文本风格识别处理,生成原文本风格数据。
这里,对原文本数据进行文本风格识别处理的过程与步骤13中对第一采集数据集合的处理过程类似,在此不做进一步赘述。
步骤4,对最近的与当前用户对应的多个第一用户文本风格数据,进行文本风格综合评估处理,生成第一评估风格数据;
这里,在向当前用户推送文本信息之前,需要分析当前用户最近的文本风格倾向;
具体包括:步骤41,选择当前用户最近的第一指定数量N个第一用户文本风格数据,作为第一评估数据集合[S1,S2…Si…SN];Si为第一用户文本风格数据,i的取值从1到N;
其中,S1为距离当前最近的第一用户文本风格数据、S2为距离当前第二近的第一用户文本风格数据、SN为距离当前最远的第一用户文本风格数据;
这里,在分析当前用户最近的文本风格倾向时,为避免偶发事件造成的影响,本发明实施例会按阶段统计多个第一用户文本风格数据来进行综合分析,也就是通过对距离当前时间最近的第一指定数量N个第一用户文本风格数据进行总和分析来得到当前用户最近的文本风格倾向;第一指定数量N与前文中的第一时间段相关,若第一时间段越小则第一指定数量N越大,反之若第一时间段越大则第一指定数量N越小;
例如,上文中提及的按阶段统计具体为按月统计时,第一时间段若为一天则第一指定数量N为30,第一时间段若为一周则第一指定数量N为4;
步骤42,对第一评估数据集合[S1,S2…Si…SN]中每个Si加权,生成第二评估数据集合[W1*S1,W2*S2…Wi*Si…WN*SN];
其中,Wi为Si的权益系数,W1到WN依次减小;
这里,在按阶段统计多个第一用户文本风格数据进行综合分析时,以当前用户的文本风格倾向与时间最接近的第一用户文本风格数据相似度最高、与时间最远的第一用户文本风格数据相似度最低为原则,对每个Si加权;
例如,第一指定数量N为4,第一评估数据集合为[S1,S2,S3,S4],权益系数W1到W4分别为0.9、0.8、0.7、0,6,那么第二评估数据集合为[0.9*S1,0.8*S2,0.7*S3,0.6*S4];
步骤43,在第二评估数据集合[W1*S1,W2*S2…Wi*Si…WN*SN]中,将取值相同的第一用户文本风格数据Si的权益系数进行总和统计,得到多个第一权益系数总和数据;并将总和值最大的第一权益系数总和数据对应的第一用户文本风格数据作为第一评估风格数据。
例如,第二评估数据集合为[0.9*S1,0.8*S2,0.7*S3,0.6*S4];其中,S1为文本风格类型1,S2为文本风格类型1,S3为文本风格类型2,S4为文本风格类型3;那么取值相同的第一用户文本风格数据Si就包括三组:第一组S1和S2,第二组S3,第三组S4;那么对应第一组的第一权益系数总和数据为0.9+0.8=1.7,对应第二组的第一权益系数总和数据为0.7,对应第三组的第一权益系数总和数据为0.6;三个第一权益系数总和数据中总和值最大的为第一组的第一权益系数总和数据;那么第一评估风格数据就应为第一组的第一权益系数总和数据对应的第一用户文本风格数据也就是文本风格类型1。
步骤5,当第一评估风格数据为无风格类型时,向当前用户推送原文本数据。
这里,若第一评估风格数据为无风格类型,说明当前用户在信息展示平台或社交平台内最近都没有什么交互或者访问量,为强化用户对信息展示平台或社交平台的印象,默认就按平台自身的文本风格进行内容推送也就是不对原文本数据进行风格调整。
步骤6,当第一评估风格数据不为无风格类型时,对第一评估风格数据与原文本风格数据进行比对;若第一评估风格数据与原文本风格数据匹配,则向当前用户推送原文本数据;若第一评估风格数据与原文本风格数据不匹配时,则将原文本数据和第一评估风格数据输入训练成熟的文本风格智能转换模型进行文本风格转换处理,得到对应的新文本数据,并向当前用户推送新文本数据;
其中,文本风格智能转换模型包括输入模块、编码模块和解码模块;编码模块包括内容编码单元和风格编码单元;解码模块包括内容解码单元、风格解码单元和输出单元。
这里,若第一评估风格数据不为无风格类型,说明当前用户在信息展示平台或社交平台上始终保持着一定的活性,为提高用户对信息展示平台或社交平台的粘合度,本发明实施例默认按用户近期的文本风格推送内容;基于这个原则,就需要对原文本数据的原文本风格数据是否匹配当前用户近期的文本风格也就是第一评估风格数据进行判断,若二者匹配则不对原文本数据进行风格调整,若二者不匹配则需按用户的风格对原文本数据进行风格调整后再推送;在对原文本数据进行风格调整时,本发明实施例采用可以通过训练持续提高精度的人工智能模型也就是文本风格智能转换模型来完成;这里的文本风格智能转换模型的逻辑结构如图3为本发明实施例一提供的文本风格智能转换模型示意图所示,包括输入模块、编码模块和解码模块;其中,编码模块的内容编码单元和风格编码单元均可采用双向长短期记忆人工神经网络Bi-LSTM予以实现,解码模块的内容解码单元和风格解码单元均可采用基于注意力机制网络+LSTM+softmax函数的神经网络来实现;
在使用文本风格智能转换模型之前,本发明实施例会基于多个文本风格类型的词料库对其进行训练,从第一文本风格类型对应的第一词料库中提取第一训练词语或短句,从第二文本风格类型对应的第二词料库中提取第二训练词语或短句,并由第一、第二训练词语或短句组成训练词对或短句对用于对文本风格智能转换模型进行训练;训练时,将第一训练词语或短句输入文本风格智能转换模型中按指定的第二文本风格类型进行类型转转得到转换后的输出词语或短句,并根据输出词语或短句与第二训练词语或短句的匹配概率对模型进行反向调制,直到最终匹配概率能够收敛到一个合理范围;
在上述文本风格智能转换模型训练成熟之后,即可使用该模型对上述原文本数据进行文本风格的调整;
步骤6中,将原文本数据和第一评估风格数据输入训练成熟的文本风格智能转换模型进行文本风格转换处理,得到对应的新文本数据,具体包括:
步骤B1,文本风格智能转换模型的输入模块对原文本数据按句进行拆分,生成多个第二文句数据;并对第二文句数据进行分词处理,生成第一分词序列;并对第一分词序列进行词性识别处理,生成第一词性序列;并对第一分词序列进行词向量转换处理得到第一分词张量;并对第一词性序列进行词向量转换处理得到第一词性张量;再对第一分词张量和第一词性张量进行拼接,生成第一编码输入张量;
这里,原文本数据是由带有句号(结束符)的文句组成的文本数据集合;输入模块用于根据指定结束符号也就是句号,对原文本数据进行循环文句提取,并对每次提取出的文句按指定语种(例如中文、英文等)做非语言文字的符号过滤处理也即是将文句中的非指定语言文字(例如中文汉字、英文字母等)的文本内容(例如标点符号、数字等内容)进行删除,必将符号过滤处理后的文句作为第二文句数据;
接着,使用分词模型依据语言词典对第二文句数据进行分词处理得到一个概率最大的分词序列也即是第一分词序列,再根据语言词典的词性内容对第一分词序列中的各个分词进行词性识别得到对应的第一词性序列;对第一分词序列,本发明实施例会以每个分词作为单热(one-hot)编码通过词嵌入(word embedding)方式将每个分词转换为一个词向量,再由所有词向量组成第一分词张量;对第一词性序列,本发明实施例会以每个词性作为单热(one-hot)编码通过词嵌入(word embedding)方式将每个词性转换为一个词向量,再由所有词向量组成第一词性张量;第一编码输入张量即是对原文本数据进行文本-词向量转换的转换结果;
步骤B2,编码模块的内容编码单元对第一编码输入张量进行内容特征提取处理,生成第一内容特征张量;编码模块的风格编码单元对第一编码输入张量进行文本风格特征提取处理,生成第一风格特征张量;
这里,编码模块主要用于对第一编码输入张量进行内容与文本风格的分离;其中,内容编码单元用于将第一编码输入张量中的不带文本风格特征的内容特征抽取出来,其提取结果即是第一内容特征张量;风格编码单元则用于将第一编码输入张量的风格特征抽取出来,其提取结果即是第一风格特征张量;
步骤B3,解码模块的内容解码单元对第一内容特征张量进文本解码处理,生成第二内容特征张量;解码模块的风格解码单元使用与第一评估风格数据对应的风格矩阵与风格偏置系数对第一风格特征张量进风格解码处理,生成第二风格特征张量;
这里,解码模块的内容解码单元主要用于产生中性的内容张量也就是第二内容特征张量,解码模块的风格解码单元主要用于按当前用户文本风格类型也就是第一评估风格数据产生的新文本风格张量也就是第二风格特征张量;其中,内容解码单元因为其输入的第一内容特征张量并不具备文本风格特征所以其输出的第二内容特征张量的文本风格应与输入保持一致也就是默认为中性的文本风格;风格解码单元会使用与第一评估风格数据对应的风格权益矩阵对第一风格特征张量进行权重计算,再使用与第一评估风格数据对应的风格偏置矩阵对权重计算结果进行偏置调整,再对偏置调整结果进行分类采样等操作从而得到与第一评估风格数据匹配的新的风格特征张量也即是第二风格特征张量;
步骤B4,解码模块的输出单元对第二内容张量与第二风格张量进行融合处理并对融合结果进行文本转换处理,从而得到与当前第二文句数据对应的第三文句数据;并将得到的所有第三文句数据组成新文本数据。
图4为本发明实施例二提供的一种基于智能模型推送不同风格文本的装置的模块结构图,该装置可以为实现本发明实施例方法的终端设备或者服务器,也可以为与上述终端设备或者服务器连接的实现本发明实施例方法的装置,例如该装置可以是上述终端设备或者服务器的装置或芯片系统。如图2所示,该装置包括:用户跟踪模块101和用户内容推送模块102。
用户内容推送模块102包括原文数据获取模块1021、原文风格识别模块1022、用户风格评估模块1023和风格内容推送模块1024。
用户跟踪模块101用于定期使用训练成熟的文本风格智能识别模型,对各个用户进行文本风格识别处理,生成对应的第一用户文本风格数据并保存。
原文数据获取模块1021用于在向任一用户进行文本推送处理时,获取用于推送的原文本数据。
原文风格识别模块1022用于将原文本数据输入文本风格智能识别模型中进行文本风格识别处理,生成原文本风格数据。
用户风格评估模块1023对最近的与当前用户对应的多个第一用户文本风格数据,进行文本风格综合评估处理,生成第一评估风格数据。
风格内容推送模块1024用于当第一评估风格数据为无风格类型时,向当前用户推送原文本数据;当第一评估风格数据不为无风格类型时,对第一评估风格数据与原文本风格数据进行比对;若第一评估风格数据与原文本风格数据匹配,则向当前用户推送原文本数据;若第一评估风格数据与原文本风格数据不匹配,则将原文本数据和第一评估风格数据输入训练成熟的文本风格智能转换模型进行文本风格转换处理,得到对应的新文本数据,并向当前用户推送新文本数据。
本发明实施例提供的一种基于智能模型推送不同风格文本的装置,可以执行上述方法实施例中的方法步骤,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,用户跟踪模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,ASIC),或,一个或多个数字信号处理器(Digital Signal Processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(System-on-a-chip,SOC)的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本发明实施例所描述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线路(Digital Subscriber Line,DSL))或无线(例如红外、无线、蓝牙、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
图5为本发明实施例三提供的一种电子设备的结构示意图。该电子设备可以为前述的终端设备或者服务器,也可以为与前述终端设备或者服务器连接的实现本发明实施例方法的终端设备或服务器。如图5所示,该电子设备可以包括:处理器31(例如CPU)、存储器32、收发器33;收发器33耦合至处理器31,处理器31控制收发器33的收发动作。存储器32中可以存储各种指令,以用于完成各种处理功能以及实现本发明上述实施例中提供的方法和处理过程。优选的,本发明实施例涉及的电子设备还包括:电源34、系统总线35以及通信端口36。系统总线35用于实现元件之间的通信连接。上述通信端口36用于电子设备与其他外设之间进行连接通信。
在图5中提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(Non-Volatile Memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器CPU、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,本发明实施例还提供一种计算机可读存储介质,该存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中提供的方法和处理过程。
本发明实施例还提供一种运行指令的芯片,该芯片用于执行上述实施例中提供的方法和处理过程。
本发明实施例提供了一种基于智能模型推送不同风格文本的方法、装置、电子设备及计算机可读存储介质,定期、持续地使用智能模型分析各个时段用户的文本风格类型偏向,并在每次向用户进行内容推送之前都对用户当前最大可能的文本风格类型偏向进行确认,在确认了用户偏向之后再对推送内容的文本风格进行核准,若推送风格与用户偏向不匹配则使用智能模型将推送本文的风格调整到与用户偏向一致。通过本发明方法,既解决了目前推送风格单一的问题、提高了用户体验,又可以同时对用户的风格变化趋势进行持续跟踪,为精准推送提供了数据支撑。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于智能模型推送不同风格文本的方法,其特征在于,所述方法包括:
定期使用训练成熟的文本风格智能识别模型,对各个用户进行文本风格识别处理,生成对应的第一用户文本风格数据并保存;
在向任一用户进行文本推送处理时,获取用于推送的原文本数据;
将所述原文本数据输入所述文本风格智能识别模型中进行文本风格识别处理,生成原文本风格数据;
并对最近的与当前用户对应的多个所述第一用户文本风格数据,进行文本风格综合评估处理,生成第一评估风格数据;
当所述第一评估风格数据为无风格类型时,向当前用户推送所述原文本数据;
当所述第一评估风格数据不为无风格类型时,对所述第一评估风格数据与所述原文本风格数据进行比对;若所述第一评估风格数据与所述原文本风格数据匹配,则向当前用户推送所述原文本数据;若所述第一评估风格数据与所述原文本风格数据不匹配,则将所述原文本数据和所述第一评估风格数据输入训练成熟的文本风格智能转换模型进行文本风格转换处理,得到对应的新文本数据,并向当前用户推送所述新文本数据。
2.根据权利要求1所述的基于智能模型推送不同风格文本的方法,其特征在于,所述定期使用训练成熟的文本风格智能识别模型,对各个用户进行文本风格识别处理,生成对应的第一用户文本风格数据并保存,具体包括:
定期对各个用户进行信息采集处理,生成对应的第一采集数据集合;其中,所述第一采集数据集合包括第一互动数据集合、第二互动数据集合和第一文章数据集合;所述第一互动数据集合包括第一时间段内当前用户与聊天机器人互动的所有文本和或语音数据;所述第二互动数据集合包括所述第一时间段内当前用户与其他用户互动的所有文本和或语音数据;所述第一文章数据集合包括所述第一时间段内当前用户阅读过的所有文章数据;所述第一时间段为前次信息采集日期到当次信息采集日期间的时间段;
对所述第一采集数据集合中的语音数据,使用训练成熟的端到端语音识别模型进行识别生成对应的文本数据,并使用识别出的文本数据对原语音数据进行替换;
若所述第一采集数据集合不为空,则将所述第一采集数据集合输入所述文本风格智能识别模型进行文本风格识别处理,生成所述第一用户文本风格数据并保存;
若所述第一采集数据集合为空,则设置所述第一用户文本风格数据为无风格类型并保存;
创建当前用户与所述第一用户文本风格数据的对应关系并保存。
3.根据权利要求2所述的基于智能模型推送不同风格文本的方法,其特征在于,所述端到端语音识别模型包括连接时序分类CTC模型和注意力Attention模型。
4.根据权利要求1或2所述的基于智能模型推送不同风格文本的方法,其特征在于,
所述文本风格智能识别模型包括文本分句模块、文本分词模块、文本降噪模块、文本向量准备模块、文本分类模型和分类决策模块;所述文本分类模型为基于卷积神经网络CNN的文本分类模型、基于循环神经网络RNN的文本分类模型或基于长短期记忆人工神经网络LSTM+注意力机制的文本分类模型;
在进行文本风格识别处理时,所述文本风格智能识别模型的所述文本分句模块以句为单位对输入数据进行分句处理得到多个第一文句数据;所述文本分词模块对各个第一文句数据进行分词处理,得到第一分词数据集合;所述文本降噪模块根据预设的停用词列表,对所述第一分词数据集合进行停用词删除处理,生成第二分词数据集合;所述文本向量准备模块按所述文本分类模型的输入张量要求,对所述第二分词数据集合进行文本向量转换处理,生成第一输入张量;所述文本分类模型对所述第一输入张量进行文本分类处理,得到多个分类概率;所述分类决策模块选取概率值最大的所述分类概率对应的分类类型作为所述文本风格识别处理的输出结果。
5.根据权利要求1所述的基于智能模型推送不同风格文本的方法,其特征在于,所述对最近的与当前用户对应的多个所述第一用户文本风格数据,进行文本风格综合评估处理,生成第一评估风格数据,具体包括:
选择当前用户最近的第一指定数量N个所述第一用户文本风格数据,作为第一评估数据集合[S1,S2…Si…SN];Si为所述第一用户文本风格数据,i的取值从1到N;其中,S1为距离当前最近的第一用户文本风格数据、S2为距离当前第二近的第一用户文本风格数据、SN为距离当前最远的第一用户文本风格数据;
对所述第一评估数据集合[S1,S2…Si…SN]中每个Si加权,生成第二评估数据集合[W1*S1,W2*S2…Wi*Si…WN*SN];其中,Wi为Si的权益系数,W1到WN依次减小;
在所述第二评估数据集合[W1*S1,W2*S2…Wi*Si…WN*SN]中,将取值相同的第一用户文本风格数据Si的权益系数进行总和统计,得到多个第一权益系数总和数据;并将总和值最大的第一权益系数总和数据对应的第一用户文本风格数据作为所述第一评估风格数据。
6.根据权利要求1所述的基于智能模型推送不同风格文本的方法,其特征在于,所述文本风格智能转换模型包括输入模块、编码模块和解码模块;所述编码模块包括内容编码单元和风格编码单元;所述解码模块包括内容解码单元、风格解码单元和输出单元。
7.根据权利要求6所述的基于智能模型推送不同风格文本的方法,其特征在于,所述将所述原文本数据和所述第一评估风格数据输入训练成熟的文本风格智能转换模型进行文本风格转换处理,得到对应的新文本数据,具体包括:
所述文本风格智能转换模型的所述输入模块对所述原文本数据按句进行拆分,生成多个第二文句数据;并对所述第二文句数据进行分词处理,生成第一分词序列;并对所述第一分词序列进行词性识别处理,生成第一词性序列;并对所述第一分词序列进行词向量转换处理得到第一分词张量;并对所述第一词性序列进行词向量转换处理得到第一词性张量;再对所述第一分词张量和所述第一词性张量进行拼接,生成第一编码输入张量;
所述编码模块的所述内容编码单元对所述第一编码输入张量进行内容特征提取处理,生成第一内容特征张量;所述编码模块的所述风格编码单元对所述第一编码输入张量进行文本风格特征提取处理,生成第一风格特征张量;
所述解码模块的所述内容解码单元对所述第一内容特征张量进文本解码处理,生成第二内容特征张量;所述解码模块的所述风格解码单元使用与所述第一评估风格数据对应的风格矩阵与风格偏置系数对所述第一风格特征张量进行风格解码处理,生成第二风格特征张量;
所述解码模块的所述输出单元对所述第二内容特征张量与所述第二风格特征张量进行融合处理并对融合结果进行文本转换处理,从而得到与当前第二文句数据对应的第三文句数据;并将得到的所有第三文句数据组成所述新文本数据。
8.一种用于实现权利要求1-7任一项所述的基于智能模型推送不同风格文本的方法的装置,其特征在于,所述装置包括:用户跟踪模块和用户内容推送模块;
所述用户内容推送模块包括原文数据获取模块、原文风格识别模块、用户风格评估模块和风格内容推送模块;
所述用户跟踪模块用于定期使用训练成熟的文本风格智能识别模型,对各个用户进行文本风格识别处理,生成对应的第一用户文本风格数据并保存;
所述原文数据获取模块用于在向任一用户进行文本推送处理时,获取用于推送的原文本数据;
所述原文风格识别模块用于将所述原文本数据输入所述文本风格智能识别模型中进行文本风格识别处理,生成原文本风格数据;
所述用户风格评估模块对最近的与当前用户对应的多个所述第一用户文本风格数据,进行文本风格综合评估处理,生成第一评估风格数据;
所述风格内容推送模块用于当所述第一评估风格数据为无风格类型时,向当前用户推送所述原文本数据;当所述第一评估风格数据不为无风格类型时,对所述第一评估风格数据与所述原文本风格数据进行比对;若所述第一评估风格数据与所述原文本风格数据匹配,则向当前用户推送所述原文本数据;若所述第一评估风格数据与所述原文本风格数据不匹配,则将所述原文本数据和所述第一评估风格数据输入训练成熟的文本风格智能转换模型进行文本风格转换处理,得到对应的新文本数据,并向当前用户推送所述新文本数据。
9.一种电子设备,其特征在于,包括:存储器、处理器和收发器;
所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现权利要求1-7任一项所述的方法步骤;
所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行权利要求1-7任一项所述的方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111311374.1A CN114117034B (zh) | 2021-11-08 | 2021-11-08 | 一种基于智能模型推送不同风格文本的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111311374.1A CN114117034B (zh) | 2021-11-08 | 2021-11-08 | 一种基于智能模型推送不同风格文本的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114117034A CN114117034A (zh) | 2022-03-01 |
CN114117034B true CN114117034B (zh) | 2022-08-26 |
Family
ID=80381040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111311374.1A Active CN114117034B (zh) | 2021-11-08 | 2021-11-08 | 一种基于智能模型推送不同风格文本的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114117034B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105303397A (zh) * | 2015-09-28 | 2016-02-03 | 百度在线网络技术(北京)有限公司 | 信息推荐方法、系统、服务器端以及客户端 |
CN111984767A (zh) * | 2019-05-23 | 2020-11-24 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置和电子设备 |
CN113434633A (zh) * | 2021-06-28 | 2021-09-24 | 平安科技(深圳)有限公司 | 基于头像的社交话题推荐方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10019419B2 (en) * | 2013-06-06 | 2018-07-10 | Tencent Technology (Shenzhen) Company Limited | Method, server, browser, and system for recommending text information |
US10503829B2 (en) * | 2016-10-13 | 2019-12-10 | Booxby Inc. | Book analysis and recommendation |
-
2021
- 2021-11-08 CN CN202111311374.1A patent/CN114117034B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105303397A (zh) * | 2015-09-28 | 2016-02-03 | 百度在线网络技术(北京)有限公司 | 信息推荐方法、系统、服务器端以及客户端 |
CN111984767A (zh) * | 2019-05-23 | 2020-11-24 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置和电子设备 |
CN113434633A (zh) * | 2021-06-28 | 2021-09-24 | 平安科技(深圳)有限公司 | 基于头像的社交话题推荐方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114117034A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021174757A1 (zh) | 语音情绪识别方法、装置、电子设备及计算机可读存储介质 | |
CN109685056B (zh) | 获取文档信息的方法及装置 | |
CN110334110A (zh) | 自然语言分类方法、装置、计算机设备以及存储介质 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN109920415A (zh) | 基于语音识别的人机问答方法、装置、设备和存储介质 | |
CN111177186B (zh) | 基于问题检索的单句意图识别方法、装置和系统 | |
CN111274797A (zh) | 用于终端的意图识别方法、装置、设备及存储介质 | |
KR20200119410A (ko) | 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법 | |
CN113609289A (zh) | 一种基于多模态对话文本的情感识别方法 | |
WO2022141875A1 (zh) | 用户意图识别方法、装置、设备及计算机可读存储介质 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
TW202034207A (zh) | 使用意圖偵測集成學習之對話系統及其方法 | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN115186056A (zh) | 文本风格迁移方法、装置、电子设备及存储介质 | |
CN116361442B (zh) | 基于人工智能的营业厅数据分析方法及系统 | |
CN114595692A (zh) | 一种情绪识别方法、系统及终端设备 | |
CN114117034B (zh) | 一种基于智能模型推送不同风格文本的方法和装置 | |
CN113743126B (zh) | 一种基于用户情绪的智能交互方法和装置 | |
CN111460107A (zh) | 一种应答方法和应答系统 | |
CN116978367A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN112883183B (zh) | 构建多分类模型的方法、智能客服方法和相关装置及系统 | |
CN113505293B (zh) | 信息推送方法、装置、电子设备及存储介质 | |
CN115906835A (zh) | 一种基于聚类和对比学习的中文问句文本表示学习的方法 | |
CN112395414B (zh) | 文本分类方法和分类模型的训练方法、装置、介质和设备 | |
JP7216627B2 (ja) | 入力支援方法、入力支援システム、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |