CN112949280B - 一种数据处理方法和装置 - Google Patents

一种数据处理方法和装置 Download PDF

Info

Publication number
CN112949280B
CN112949280B CN202110229162.2A CN202110229162A CN112949280B CN 112949280 B CN112949280 B CN 112949280B CN 202110229162 A CN202110229162 A CN 202110229162A CN 112949280 B CN112949280 B CN 112949280B
Authority
CN
China
Prior art keywords
sentences
texts
comparison result
sentence
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110229162.2A
Other languages
English (en)
Other versions
CN112949280A (zh
Inventor
吴婷
薄涛
张思宇
刘金财
于向丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202110229162.2A priority Critical patent/CN112949280B/zh
Publication of CN112949280A publication Critical patent/CN112949280A/zh
Application granted granted Critical
Publication of CN112949280B publication Critical patent/CN112949280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种数据处理方法和装置,包括:生成多个待对比文本之间的差异集,确定差异集中的文本是否命中预设的关键词,在差异集中存在命中关键词的目标文本时,利用预先训练得到的习惯性语言补全模型对目标文本进行语句补全,得到对比结果语句集,输出对比结果语句集中的合理语句。这种方法可以自动生成多个对比文本之间的差异集,并对差异集中命中关键词的目标文本自动补全语句,并自动输出合理语句,不需要人工的参与,节省时间,提高工作效率且不需要用户繁琐的操作。

Description

一种数据处理方法和装置
技术领域
本申请涉及通信技术领域,尤其涉及一种数据处理方法和装置。
背景技术
随着互联网产业发展迅猛,智能客服也越来越多,电信客服知识系统向多元化、智能化和自动化的方向发展。在电信客服知识系统中,由于在不同场景和地点的客户与客服人员问答交流方式多种多样,所以系统对各种情景模式进行不断的整合、处理,构成了客服知识系统。目前大部分客服知识系统都是基于大数据知识处理技术的方法,即提前将客户需要的数据存储于知识库中,在客服工作时,随时去读取知识库中存储的知识。
目前,在面对用户提出的不同知识差异性问题时,客服人员通常需要将不同知识差异性问题之间进行比较,确定具体的问题,然后向系统输入该具体问题,进而从系统的知识库中查询到该具体问题相关的知识。
然而,该方式依赖人工,工作经验较少的人员较难处理,且操作繁琐效率低。
发明内容
本申请提出一种数据处理方法和装置,可以自动生成多个对比文本之间的差异集,并对差异集中命中关键词的目标文本自动补全语句,并自动输出合理语句,不需要人工的参与,节省时间,提高工作效率且不需要用户繁琐的操作。
第一方面,本申请实例提供一种数据处理方法,包括:生成多个待对比文本之间的差异集,确定差异集中的文本是否命中预设的关键词,在差异集中存在命中关键词的目标文本时,利用预先训练得到的习惯性语言补全模型对目标文本进行语句补全,得到对比结果语句集,输出对比结果语句集中的合理语句。
可选的,待对比文本可以是安装在用户终端的客户系统提供的用户界面中,所接收到的用户输入的多个待对比文本。
可选的,差异集可以是利用差异算法Myers根据语义匹配确定多个待对比文本的差异得到的。
可选的,预设的关键词是指客户系统中预先设定的关键词。
可选的,目标文本是指差异集中的文本命中了客户系统中预设的关键词生成的文本。
可选的,对比结果语句集是指将差异集中命中预设关键词的目标文本进行语句补全后生成的结果语句集合。
可选的,习惯性语言补全模型是根据运营商词库训练得到的,该训练过程可以包括:将运营商词库中的文本拆分后输入神经网络模型,调整神经网络模型的参数,直到神经网络模型输出的语句与运营商词库中的文本符合损失函数的要求。该习惯性语言补全模型可以用于输出符合运营商的业务习惯的语句。
可选的,得到对比结果语句集中合理语句的方式可以是通过神经网络语言模型对结果语句集中的语句进行打分,输出合理语句。
第二方面,本申请实施例提供一种数据处理装置。
处理单元,用于生成多个待对比文本之间的差异集,其中,待对比文本可以是安装在用户终端的客户系统提供的用户界面中,所接收到的用户输入的多个待对比文本;差异集可以是利用差异算法Myers根据语义匹配确定多个待对比文本的差异得到的。
处理单元,还用于确定差异集中的文本是否命中预设的关键词。
处理单元,还用于在差异集中存在命中关键词的目标文本时,利用预先训练得到的习惯性语言补全模型对目标文本进行语句补全,得到对比结果语句集。
可选的,习惯性语言补全模型是根据运营商词库训练得到的,该习惯性语言补全模型可以用于输出符合运营商的业务习惯的语句,处理单元,具体用于针对目标文本所命中的目标关键词,利用习惯性语言补全模型结合自然语言语法延伸所述目标关键词的上下文,并进行关联性词语提取,以及,利用习惯性语言补全模型将提取出的关联性词语组合成语句。
处理单元,还用于输出对比结果语句集中的合理语句。
可选的,处理单元,具体用于利用预先训练的神经网络语言模型对对比结果语句集中的语句进行打分,并将对比结果语句集中的得分高于阈值的语句作为合理语句进行输出。
可选的,处理单元,具体用于利用预先训练的神经网络语言模型对对比结果语句集中的语句进行打分,并将对比结果语句集中的得分最高的语句作为合理语句进行输出。
可选的,神经网络语言模型是根据运营商词库训练得到的,神经网络语言模型中,与运营商词库相似度越高的文本得分越高。
第三方面,本申请实施例提供一种电子设备,包括:存储器和处理器,存储器用于存储程序指令,处理器,用于调用并执行存储器中的程序指令,执行如第一方面或第一方面的任一种可能的设计的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质用于存储计算机程序,计算机程序用于实现如第一方面或第一方面的任一种可能的设计的方法。
综上所述,本申请提出一种数据处理方法和装置,包括:生成多个待对比文本之间的差异集;确定差异集中的文本是否命中预设的关键词;在差异集中存在命中关键词的目标文本时,利用预先训练得到的习惯性语言补全模型对目标文本进行语句补全,得到对比结果语句集;输出对比结果语句集中的合理语句。这种方法可以自动生成多个对比文本之间的差异集,并对差异集中命中关键词的目标文本自动补全语句,并自动输出合理语句,不依赖人工,节省时间,提高工作效率且不需要用户繁琐的操作。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请实施例提供的一种应用场景的示意图;
图2为本申请实施例提供的一种数据处理方法的流程示意图;
图3为本申请实施例提供的一种具体的数据处理流程图;
图4为本申请实施例提供的一种具体的数据处理流程图的示意图;
图5为本申请实施例提供的一种装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在日常生活中,当用户需要了解一些关于通信的查询问题时,例如办理什么类型的套餐,或者不同工作地点应办理什么类型的业务,他们会倾向于选择在线咨询客服这种方式,在面对不同场景和地点的用户提出的不同知识差异性问题时,客服人员通常需要将不同知识差异性问题之间进行比较,确定具体的问题,然后向终端系统输入该具体问题,通过从终端系统的知识库中查询到该具体问题相关的知识,回答用户提出的问题。但是,由于过于依赖人工,会给工作经验较少的客服人员带来一定的困扰,致使操作繁琐,效率低。
因此,本申请提出一种数据处理方法和装置。该数据处理方法包括:生成多个待对比文本之间的差异集,确定差异集中的文本是否命中预设的关键词,在差异集中存在命中关键词的目标文本时,利用预先训练得到的习惯性语言补全模型对目标文本进行语句补全,得到对比结果语句集,输出对比结果语句集中的合理语句。本申请实施例的方法可以自动生成多个对比文本之间的差异集,并对差异集中命中关键词的目标文本自动补全语句,并自动输出合理语句,不需要人工参与,提高工作效率且不需要用户繁琐的操作。
图1为本申请实施例提供的一种应用场景的示意图。如图1所示,包括:用户A1和用户终端B1。用户终端包括:显示单元,用于显示用户界面;用户界面中可以包括输入框,输入框用于接收来自用户输入的待对比文本;控制器,用于执行本申请实施例的数据处理过程。用户A1在用户界面中向用户终端B1输入相应的待对比文本,用户终端可以自动输出合理语句。
示例性的,本申请实施例的用户终端可以是台式电脑、智能电话、智能手表、平板个人电脑、笔记本、等离子显示面板(plasma display panel,PDP)等各种具备显示屏幕的终端设备,本申请实施例对此不予限定。
图2为本申请实施例提供的一种数据处理方法的流程示意图,如图2所示,本申请实施例的方法可以包括:
S201、生成多个待对比文本之间的差异集。
本申请实施例中,待对比文本可以是安装在用户终端的客户系统提供的用户界面中,所接收到的用户输入的多个待对比文本。
本申请实施例中,差异集可以是利用差异算法Myers根据语义匹配确定多个待对比文本的差异得到的。
在一些实施例中,差异算法Myers是一种用于优化问题的启发式算法,是针对问题要找出最优的结果,将差异集中的多个文本之间进行比较,尽可能的进行对比操作的次数少,当出现多个分支选择的时候,要选择最优的操作,例如,用户输入的待对比文本是“通话时长是多少,短信有多少条”,通过使用差异算法Myers会生成“短信”、“信短”“短信通”、“通话”、“通话短”等多个对比文本,接着运行差异算法Myers会生成多个待对比文本之间的差异集:“通话”、“短信”。
S202、确定差异集中的文本是否命中预设的关键词。
本申请实施例中,预设的关键词是指客户系统中预先设定的关键词。
在一些实施例中,通过对差异集中的文本与预设的关键词进行匹配,判断是否存在命中预设的关键词。
例如,对差异集中的文本进行识别,得到的关键词包含“短信”,“流量”,“通话”,“套餐”,“语音”,客户系统中预设的关键词有:“短信”,“流量”,“通话”,“宽带”,经过判断,可以确定存在命中预设的关键词有:“短信”,“流量”,“通话”。
S203、在差异集中存在命中关键词的目标文本时,利用预先训练得到的习惯性语言补全模型对目标文本进行语句补全,得到对比结果语句集。
本申请实例中,目标文本是指差异集中的文本命中了客户系统中预设的关键词生成的文本。
本申请实例中,对比结果语句集是指将差异集中命中预设关键词的目标文本进行语句补全后生成的结果语句集合。
本申请实例中,习惯性语言补全模型是根据运营商词库训练得到的,例如,该训练过程可以包括:将运营商词库中的文本拆分后输入神经网络模型,调整神经网络模型的参数,直到神经网络模型输出的语句与运营商词库中的文本符合损失函数的要求。该习惯性语言补全模型可以用于输出符合运营商的业务习惯的语句。
在一些实施例中,利用预先训练得到的习惯性语言补全模型对目标文本进行语句补全,针对目标文本所命中的目标关键词,利用习惯性语言补全模型结合自然语言语法,例如,主谓宾、定状补等,从而延伸目标关键词的上下文,并进行关联性词语的提取,以及,利用习惯性语言补全模型将提取出的关联性词语组合成语句。
例如,差异集中存在命中关键词的目标文本为:“通话”,“流量”,对该文本进行词性判断,“通话”是名词,也可作动词,“流量”是名词,习惯性语言补全模型根据语法获取该文本的关联词,“100M”的流量或者“200M”的流量,“50分钟”的通话或者“100分钟”的通话,对语句进行补全,输出符合运营商的业务习惯的语句为“流量100M,通话50分钟”,或者“流量200M,通话100分钟”。
S204、输出对比结果语句集中的合理语句。
本申请实例中,得到对比结果语句集中合理语句的方式可以是通过神经网络语言模型对结果语句集中的语句进行打分,输出合理语句。
例如可以采用下述两种方式:
方式一:利用神经网络语言模型对结果语句集中的语句进行打分,将结果语句集中的得分高于阈值的语句作为合理语句进行输出。
例如,对比结果语句集中有:“19元冰淇淋套餐,包含流量50分钟,通话100M”;“19元冰淇淋套餐,包含通话流量100M,50分钟,短信50条”;“19元套餐冰淇淋,包含50分钟,流量100M,通话”;“19元冰淇淋套餐,包含通话50分钟,流量100M”等。
通过神经网络语言模型对这些语句进行打分计算,将计算得分高于阈值的语句作为合理语句进行输出。例如,确定该语句的阈值为0.5(该阈值本申请实施例不予限定),计算语句“19元冰淇淋套餐,包含流量50分钟,通话100M”的得分为0.4,语句“19元冰淇淋套餐,包含通话流量100M,50分钟,短信50条”的得分为0.3,语句“19元套餐冰淇淋,包含50分钟,流量100M,通话”的得分为0.6,语句“19元冰淇淋套餐,包含通话50分钟,流量100M”的得分为0.9,将这些语句的得分与阈值进行比较,输出高于阈值的语句,输出结果为:“19元套餐冰淇淋,包含50分钟,流量100M,通话”;“19元冰淇淋套餐,包含通话50分钟,流量100M”。
方式二:利用神经网络语言模型对结果语句集中的语句进行打分,将结果语句集中的得分最高的语句作为合理语句进行输出。
例如,对比结果语句集中有:“19元冰淇淋套餐”;“19元套餐冰淇淋”;“19元冰淇淋套餐,包含通话50分钟”;“19元冰淇淋套餐,包含50分钟”;“19元冰淇淋套餐,包含流量50分钟,通话100M”;“19元套餐冰淇淋,包含50分钟,流量100M,通话”等。
通过神经网络语言模型对这些语句进行打分计算,选择计算得分高的语句,经过不断地重复训练计算,生成合理语句,将得分最高的语句进行输出。例如,语句“19元冰淇淋套餐”的得分是0.8(本申请实施例对得分的数值不作限定),语句“19元套餐冰淇淋”的得分是0.4,选择得分为0.8的语句“19元冰淇淋套餐”,继续打分计算,语句“19元冰淇淋套餐,包含通话50分钟”的得分是0.9,语句“19元冰淇淋套餐,包含50分钟”的得分是0.5,选择得分为0.9的语句“19元冰淇淋套餐,包含通话50分钟”,依此不断地训练计算,将得分最高的语句作为结果输出,可以计算出输出结果为:“19元冰淇淋套餐,包含通话50分钟,流量100M”。
综上所述,本申请实施例的方法可以自动生成多个对比文本之间的差异集,并且可以自动确定差异集中的文本是否命中预设的关键词,针对差异集中命中的关键词的目标文本自动补全语句,自动输出合理语句,不需要人工参与,提高工作效率,且不需要用户繁琐的操作。
在图2对应的实施例的基础上,本申请实施例还可以有下述可选地实现方式。
可选地,习惯性语言补全模型是根据运营商词库训练得到的;习惯性语言补全模型用于输出符合运营商的业务习惯的语句。
S203包括:
针对目标文本所命中的目标关键词,利用习惯性语言补全模型结合自然语言语法延伸目标关键词的上下文,并进行关联性词语提取。
以及,利用习惯性语言补全模型将提取出的关联性词语组合成语句。
在一些实施例中,运营商词库是指运营商整理出的电信行业的专业词库,包含电信、通信类等。
在一些实施例中,符合运营商的业务习惯的语句指的是该语句符合在用户办理业务时,运营商习惯说的语句。
在一些实施例中,自然语言语法是自然语言规律的概括和阐明,是在自然语言处理中常用的语法。
在本实施例中,利用习惯性语言补全模型可以对关联性词语进行提取并自动组合成语句,不需要人工的参与,节省了用户的时间,提高了工作效率。
可选地,输出对比结果语句集中的合理语句,包括:
利用预先训练的神经网络语言模型对对比结果语句集中的语句进行打分,并将对比结果语句集中的得分高于阈值的语句作为合理语句进行输出。
在一些实施例中,预先训练的神经网络语言模型是指定义了运营商词库中每个语句的得分多少,简单的说就是定义了任何一个语句可能出现的得分是多少。
在一些实施例中,得分高于阈值的语句是指该语句在运营商词库中的得分高于定义的阈值。
在本实施例中,利用预先训练的神经网络语言模型对语句进行训练,可以自动输出得分高于阈值的合理语句,不需要人工去思考,且不需要用户繁琐的操作,提高了工作效率。
可选地,输出对比结果语句集中的合理语句,包括:
利用预先训练的神经网络语言模型对对比结果语句集中的语句进行打分,并将对比结果语句集中的得分最高的语句作为合理语句进行输出。
在一些实施例中,得分最高的语句是指该语句在运营商词库中的得分在所有计算语句中得分最高。
在本实施例中,利用预先训练的神经网络语言模型对语句进行训练,可以自动输出得分最高的合理语句,不需要人工参与,且提高了语句的正确率和用户体验。
可选地,神经网络语言模型是根据运营商词库训练得到的,神经网络语言模型中,与运营商词库相似度越高的文本得分越高。
在一些实施例中,相似度越高的文本说明两段文本相比较语义较一致。
在本实施例中,通过神经网络语言模型训练语句,不需要人工的参与,节省时间,提高了效率。
可选地,生成多个待对比文本之间的差异集,包括:
接收用户输入的多个待对比文本。
利用差异算法Myers根据语义匹配确定多个待对比文本的差异,得到差异集。
在一些实施例中,多个待对比文本是指在用户终端的客户系统提供的待对比文本。
在一些实施例中,语义匹配是指在语义上衡量文本的相似度,主要用于特征的选择,如查询关键词、查询对比文本、查询关联词等。
在本实施例中,可以自动生成多个对比文本之间的差异集,不需要人工的参与。
可选地,接收用户输入的多个待对比文本,包括:
在客户系统的用户界面中接收用户输入的多个待对比文本。
在一些实施例中,用户界面可以包括输入框,输入框用于接收来自用户输入的待对比文本。
在本实施例中,在客户系统的用户界面中接收多个待对比文本,使用方便快捷。
结合上述实施例,图3为本申请实施例提供的一种具体的数据处理流程图。如图3所示,本申请实施例的执行方法步骤包括:
S301、执行过程开始,输入用户选择待对比知识(即待对比文本)。
S302、判断是否生成diff集(即差异集),若生成diff集则执行S303,若未生成diff集则执行S307。
S303、判断生成的diff集是否命中运营商关键词(即预设的关键词),若命中运营商关键词则执行S304,若未命中运营商关键词(即预设的关键词),输出diff集,执行S307。
S304、根据运营商关键词提取相应的关联性词语,重组段落,生成对比结果语句集。
S305、判断对比结果语句集中的语句是否合理,若语句合理则执行S306,若语句不合理,丢弃不合理语句。
S306、输出合理语句的对比结果语句集。
S307、执行过程结束。
在本实施例中,可以自动生成多个对比文本之间的差异集,并对差异集中命中关键词的目标文本自动补全语句,并自动输出合理语句,不需要人工参与,也不需要用户繁琐的操作,节省时间,提高工作效率。
图4为本申请实施例提供的一种具体的数据处理流程图的示意图。如图4所示,本申请实例中的具体的数据处理方法执行步骤包括:
S401、根据运营商词库判断差异集是否命中关键词(即预设的关键词),如果命中相同关键词则执行S402,如果命中不同关键词,则执行S403。
在一些实施例中,运营商词库是由运营商特点及重点生成的,并且会标注词性。
示例性的,运营商词库有如下语句:“19元冰淇淋”套餐,包含流量100M,通话50分钟,支持腾讯视频免流;“29元冰淇淋”套餐,包含流量200M,通话100分钟,短信50条,支持腾讯视频免流;等等
示例性的,如果命中的目标文本关键词是“冰淇淋”,“流量”,“通话”,接着会执行S402;如果命中的目标文本关键词是:“冰淇淋”,“流量”,“通话”,“短信”,因为命中了不同关键词“短信”,则会直接输出目标文本所在的语句。
S402、判断关键词的词性。
示例性的,如果命中的关键词是“冰淇淋”,“流量”,“通话”,接着会判断这些词的词性,“冰淇淋”是形容词,也可作名词,“流量”是名词,“通话”是名词,也可作动词。
S403、针对目标文本所命中的目标关键词,根据语法,结合延伸关键词上下文进行关联性词语提取,从运营商词库中获取关联词。
示例性的,针对目标文本所命中的目标关键词是“冰淇淋”,“流量”,“通话”,“短信”,结合语法,从运营商词库中获取的关联词有:“19元或29元”的冰淇淋,“100M或200M”的流量,“50分钟或100分钟”的通话,“包含”,“50条”的短信,等等。
S404、组合语句,输出对比结果语句集。
示例性的,针对目标文本所命中的目标关键词“冰淇淋”,“流量”,“通话”,“短信”,进行语句补全组合,组合的对比结果语句集有:“19元冰淇淋套餐,包含流量50分钟,通话100M,29元冰淇淋套餐,包含通话流量200M,100分钟,短信50条”;“19元套餐冰淇淋,包含50分钟,流量100M,通话,29元冰淇淋套餐,包含通话流量200M,100分钟,短信50条”;等等。
S405、根据神经网络语言模型,输出合理语句。
示例性的,利用神经网络语言模型对对比结果语句集中的语句进行训练打分,如S203所说的,并输出合理语句,将S404中的结果集进行训练打分,输出的合理语句为:“19元冰淇淋”套餐,包含流量100M,通话50分钟,“29元冰淇淋”套餐,包含流量200M,通话100分钟,短信50条。
在本实施例中,利用习惯性语言补全模型对差异集中命中关键词的目标文本进行自动补全,并自动输出合理语句,没有依赖人工,节约时间,提高效率。
图5示出了本申请实施例提供的一种数据处理装置的结构示意图。
示例性的,以该基于数据处理装置为终端设备或应用于终端设备中的芯片或芯片系统为例,该处理单元用于支持基于数据处理装置执行上述实施例中的处理步骤。
在一种可能的实现方式中,该基于数据处理装置可以包括:存储单元。其中,存储单元可以包括一个或者多个存储器,存储器可以是一个或者多个设备、电路中用于存储程序或者数据的器件。
存储单元可以独立存在,通过通信总线与处理单元相连。存储单元也可以和处理单元集成在一起。
以基于数据处理装置可以是本申请实施例中的终端设备的芯片或芯片系统为例,存储单元可以存储终端设备的方法的计算机执行指令,以使处理单元执行上述实施例中终端设备的方法。存储单元可以是寄存器、缓存或者随机存取存储器(random accessmemory,RAM)等,存储单元可以和处理单元集成在一起。存储单元可以是只读存储器(read-only memory,ROM)或者可存储静态信息和指令的其他类型的静态存储设备,存储单元可以与处理单元相独立。
处理单元,用于生成多个待对比文本之间的差异集,其中,待对比文本可以是安装在用户终端的客户系统提供的用户界面中,所接收到的用户输入的多个待对比文本;差异集可以是利用差异算法Myers根据语义匹配确定多个待对比文本的差异得到的。
处理单元,还用于确定差异集中的文本是否命中预设的关键词。
处理单元,还用于在差异集中存在命中关键词的目标文本时,利用预先训练得到的习惯性语言补全模型对目标文本进行语句补全,得到对比结果语句集。
可选的,习惯性语言补全模型是根据运营商词库训练得到的,该习惯性语言补全模型可以用于输出符合运营商的业务习惯的语句,处理单元,具体用于针对目标文本所命中的目标关键词,利用习惯性语言补全模型结合自然语言语法延伸目标关键词的上下文,并进行关联性词语提取,以及,利用习惯性语言补全模型将提取出的关联性词语组合成语句。
处理单元,还用于输出对比结果语句集中的合理语句。
可选的,处理单元,具体用于利用预先训练的神经网络语言模型对对比结果语句集中的语句进行打分,并将对比结果语句集中的得分高于阈值的语句作为合理语句进行输出。
可选的,处理单元,具体用于利用预先训练的神经网络语言模型对对比结果语句集中的语句进行打分,并将对比结果语句集中的得分最高的语句作为合理语句进行输出。
可选的,神经网络语言模型是根据运营商词库训练得到的,神经网络语言模型中,与运营商词库相似度越高的文本得分越高。本实施例的装置对应地可用于执行上述方法实施例中执行的步骤,其实现原理和技术效果类似,此处不再赘述。
根据本公开实施例的另一个方面,本公开实施例还提供了一种移动终端,移动终端包括:如上任一实施例所述的装置。
根据本公开实施例的另一个方面,本公开实施例还提供了一种电子设备,包括:存储器,处理器;
存储器用于存储处理器可执行指令的存储器;
其中,当执行存储器中的指令时,处理器被配置为实现如上任一实施例所述的方法。
示例性的,图6为本申请实施例提供的一种电子设备的结构示意图。
如图6所示,该电子设备包括存储器和处理器,该电子设备还可以包括通信接口和总线,其中,处理器、通信接口和存储器通过总线连接;处理器用于执行存储器中存储的可执行模块,例如计算机程序。
其中,存储器可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。
其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序,前述本公开实施例任一实施例揭示的方法可以应用于处理器中,或者由处理器实现。
处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
根据本公开实施例的另一个方面,本公开实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如上任一实施例所述的方法。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本公开实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
还应理解,在本公开各实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
以上,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种数据处理方法,其特征在于,包括:
生成多个待对比文本之间的差异集;所述待对比文本为不同场景和地址的用户提出的不同知识差异性问题;
确定所述差异集中的文本是否命中预设的关键词;所述预设的关键词为从运营商词库中预先指定的关键词;
在所述差异集中存在命中所述关键词的目标文本时,利用预先训练得到的习惯性语言补全模型对所述目标文本进行语句补全,得到对比结果语句集;所述对比结果语句集是指将差异集中命中预设关键词的目标文本进行语句补全后生成的结果语句集合;
输出所述对比结果语句集中的合理语句;所述合理语句为待对比文本所提出问题的合理回答;
所述习惯性语言补全模型是根据运营商词库训练得到的;所述习惯性语言补全模型用于输出符合所述运营商的业务习惯的语句;
所述利用预先训练得到的习惯性语言补全模型对所述目标文本进行语句补全,包括:
针对所述目标文本所命中的目标关键词,利用所述习惯性语言补全模型结合自然语言语法延伸所述目标关键词的上下文,并进行关联性词语提取;所述目标关键词位于运营商词库中;
以及,利用所述习惯性语言补全模型将提取出的所述关联性词语组合成语句。
2.根据权利要求1所述的方法,其特征在于,所述输出所述对比结果语句集中的合理语句,包括:
利用预先训练的神经网络语言模型对所述对比结果语句集中的语句进行打分,并将所述对比结果语句集中的得分高于阈值的语句作为所述合理语句进行输出。
3.根据权利要求1所述的方法,其特征在于,所述输出所述对比结果语句集中的合理语句,包括:
利用预先训练的神经网络语言模型对所述对比结果语句集中的语句进行打分,并将所述对比结果语句集中的得分最高的语句作为所述合理语句进行输出。
4.根据权利要求2或3所述的方法,其特征在于,所述神经网络语言模型是根据运营商词库训练得到的,所述神经网络语言模型中,与所述运营商词库相似度越高的文本得分越高。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述生成多个待对比文本之间的差异集,包括:
接收用户输入的所述多个待对比文本;
利用差异算法Myers根据语义匹配确定所述多个待对比文本的差异,得到所述差异集。
6.根据权利要求5所述的方法,其特征在于,所述接收用户输入的所述多个待对比文本,包括:
在客户系统的用户界面中接收用户输入的所述多个待对比文本。
7.一种数据处理装置,其特征在于,包括:
处理单元,用于生成多个待对比文本之间的差异集;所述待对比文本为不同场景和地址的用户提出的不同知识差异性问题;
所述处理单元,还用于确定所述差异集中的文本是否命中预设的关键词;所述预设的关键词为从运营商词库中预先指定的关键词;
所述处理单元,还用于在所述差异集中存在命中所述关键词的目标文本时,利用预先训练得到的习惯性语言补全模型对所述目标文本进行语句补全,得到对比结果语句集;所述对比结果语句集是指将差异集中命中预设关键词的目标文本进行语句补全后生成的结果语句集合;
所述处理单元,还用于输出所述对比结果语句集中的合理语句;所述合理语句为待对比文本所提出问题的合理回答;
所述习惯性语言补全模型是根据运营商词库训练得到的;所述习惯性语言补全模型用于输出符合所述运营商的业务习惯的语句;
所述处理单元,在所述利用预先训练得到的习惯性语言补全模型对所述目标文本进行语句补全时,具体用于:
针对所述目标文本所命中的目标关键词,利用所述习惯性语言补全模型结合自然语言语法延伸所述目标关键词的上下文,并进行关联性词语提取;所述目标关键词位于运营商词库中;
以及,利用所述习惯性语言补全模型将提取出的所述关联性词语组合成语句。
8.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行如权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-6任一项所述的方法。
CN202110229162.2A 2021-03-02 2021-03-02 一种数据处理方法和装置 Active CN112949280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110229162.2A CN112949280B (zh) 2021-03-02 2021-03-02 一种数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110229162.2A CN112949280B (zh) 2021-03-02 2021-03-02 一种数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN112949280A CN112949280A (zh) 2021-06-11
CN112949280B true CN112949280B (zh) 2023-07-07

Family

ID=76247162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110229162.2A Active CN112949280B (zh) 2021-03-02 2021-03-02 一种数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN112949280B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766324A (zh) * 2017-09-25 2018-03-06 浙江大学 一种基于深度神经网络的文本一致性分析方法
KR20180042577A (ko) * 2016-10-18 2018-04-26 삼성전자주식회사 전자 장치 및 그 제어 방법
CN111597349A (zh) * 2020-04-30 2020-08-28 西安理工大学 一种基于人工智能的轨道交通规范实体关系自动补全方法
CN111898024A (zh) * 2020-07-30 2020-11-06 厦门渊亭信息科技有限公司 一种智能问答方法、装置、可读存储介质及计算设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334487B (zh) * 2017-07-14 2021-06-25 腾讯科技(深圳)有限公司 缺失语意信息补全方法、装置、计算机设备和存储介质
CN107992543B (zh) * 2017-11-27 2020-11-17 上海智臻智能网络科技股份有限公司 问答交互方法和装置、计算机设备及计算机可读存储介质
CN109522419B (zh) * 2018-11-15 2020-08-04 北京搜狗科技发展有限公司 会话信息补全方法及装置
CN110008308B (zh) * 2019-01-24 2023-06-02 创新先进技术有限公司 针对用户问句补充信息的方法和装置
CN109977207A (zh) * 2019-03-21 2019-07-05 网易(杭州)网络有限公司 对话生成方法、对话生成装置、电子设备及存储介质
CN111222309A (zh) * 2020-01-15 2020-06-02 深圳前海微众银行股份有限公司 一种问句生成的方法及装置
CN111507088B (zh) * 2020-04-15 2022-12-16 深圳前海微众银行股份有限公司 语句补全方法、设备及可读存储介质
CN112328762B (zh) * 2020-11-04 2023-12-19 平安科技(深圳)有限公司 基于文本生成模型的问答语料生成方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180042577A (ko) * 2016-10-18 2018-04-26 삼성전자주식회사 전자 장치 및 그 제어 방법
CN107766324A (zh) * 2017-09-25 2018-03-06 浙江大学 一种基于深度神经网络的文本一致性分析方法
CN111597349A (zh) * 2020-04-30 2020-08-28 西安理工大学 一种基于人工智能的轨道交通规范实体关系自动补全方法
CN111898024A (zh) * 2020-07-30 2020-11-06 厦门渊亭信息科技有限公司 一种智能问答方法、装置、可读存储介质及计算设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于序列到序列的中文短文本省略补全;郑杰 等;《中文信息学报》;第32卷(第12期);92-99 *

Also Published As

Publication number Publication date
CN112949280A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
US10795944B2 (en) Deriving user intent from a prior communication
WO2019153612A1 (zh) 问答数据处理方法、电子装置及存储介质
CN109918676B (zh) 一种检测意图正则表达式的方法及装置、终端设备
CN108416375B (zh) 工单分类方法及装置
CN109284502B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN109710732B (zh) 信息查询方法、装置、存储介质和电子设备
CN112446210A (zh) 用户性别预测方法、装置及电子设备
CN107844470A (zh) 一种语音数据处理方法及其设备
CN109871251A (zh) 一种响应数据的处理方法、装置、存储介质及终端设备
CN111507114B (zh) 基于反向翻译的口语文本增强方法及系统
CN110020429B (zh) 语义识别方法及设备
CN112949280B (zh) 一种数据处理方法和装置
CN109492228B (zh) 信息处理装置及其分词处理方法
CN105574112A (zh) 一种通信过程的评论信息处理方法及系统
JP2017219899A (ja) ナレッジ検索装置、ナレッジ検索方法、および、ナレッジ検索プログラム
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN110377706B (zh) 基于深度学习的搜索语句挖掘方法及设备
CN109783612B (zh) 报表数据定位方法及装置、存储介质、终端
CN110991169A (zh) 一种风险内容变种的识别方法、装置及电子设备
CN111813989B (zh) 信息处理方法、设备及存储介质
CN111159526B (zh) 查询语句处理方法、装置、设备及存储介质
CN112685540A (zh) 搜索方法、装置、存储介质以及终端
CN112468503A (zh) 一种基于防火墙的网站鉴别的方法、装置、设备及介质
CN112597287A (zh) 一种语句处理方法、语句处理装置及智能设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant