CN113254615A - 文本处理方法、装置、设备及介质 - Google Patents
文本处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113254615A CN113254615A CN202110599005.0A CN202110599005A CN113254615A CN 113254615 A CN113254615 A CN 113254615A CN 202110599005 A CN202110599005 A CN 202110599005A CN 113254615 A CN113254615 A CN 113254615A
- Authority
- CN
- China
- Prior art keywords
- text
- processed
- processing model
- word
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 156
- 238000000034 method Methods 0.000 claims abstract description 47
- 239000013598 vector Substances 0.000 claims description 109
- 238000012549 training Methods 0.000 claims description 86
- 230000006870 function Effects 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000002457 bidirectional effect Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种文本处理方法、装置、设备及介质。该方法包括:获取待处理文本;将待处理文本输入至预先训练的文本处理模型中,确定待处理文本所属领域属于预设领域的概率;在概率大于预设阈值的情况下,从预设领域的知识库中确定对待处理文本进行回答的信息。根据本申请实施例,能够通过文本处理模型先确定文本所属领域,然后从该领域所对应的知识库中查找可对待处理文本进行回答的相关信息,从而提高了查找对该文本进行回答的相关信息的准确性。
Description
技术领域
本申请属于人机交互自然语言处理领域,尤其涉及一种文本处理方法、装置、设备及介质。
背景技术
随着人工智能时代的来临,以智能客服为代表的一类智能对话技术也发展迅速,但是由于自然语言表达具有多样性和歧义性,使得同一文本可以表达出不同含义,使得智能客服系统无法识别文本所属领域,进而对该文本的回复信息也不够准确,因此,智能客服系统在与客户进行人机对话过程中,需要准确识别用户输入文本所属领域。
在现有技术中,一般是针对领域知识库中的实体-属性、实体-关系-实体的三元信息进行建模,再由回归模型判断文本所对应的实体链接对象。
但是,由于其过于依赖于知识库信息,且适用于长文本的语义环境。而在绝大多数智能客服系统的问答环境中,经常使用短文本表达,因此,导致现有技术中存在无法准确确定用户输入文本的所属领域,进而无法准确得到对用户输入文本进行回答的相关信息。
发明内容
本申请实施例提供一种文本处理方法、装置、设备及介质,可以准确确定用户输入文本的所属领域,进而可以准确得到对用户输入文本进行回答的相关信息。
第一方面,本申请实施例提供一种文本处理方法,方法包括:获取待处理文本;
将待处理文本输入至预先训练的文本处理模型中,确定待处理文本所属领域属于预设领域的概率;
在概率大于预设阈值的情况下,从预设领域的知识库中确定对待处理文本进行回答的信息。
在第一方面的一些实施例中,将待处理文本输入至预先训练的文本处理模型中,确定待处理文本所属领域属于预设领域的概率,包括:
将待处理文本输入至预先训练的文本处理模型中的第一网络,确定至少一个标有特征标记的文本编码向量,特征标记用于表示文本编码向量的语义特征;
将至少一个文本编码向量输入至预先训练的文本处理模型中的第二网络,确定与至少一个文本编码向量对应的至少一个待处理词语、与每个待处理词语对应的词语开始位置和词语结束位置;
将至少一个文本编码向量、至少一个待处理词语、与每个待处理词语对应的词语开始位置和词语结束位置输入至预先训练的文本处理模型中的第三网络,确定待处理文本所属领域属于预设领域的概率。
在第一方面的一些实施例中,在获取待处理文本之前,方法还包括:
获取训练样本集,训练样本集中包括多个待处理文本样本组,每一个待处理文本样本组包括待处理文本样本及其对应的标签概率;
利用训练样本集中的待处理文本样本组训练预设的文本处理模型,直至满足训练停止条件,得到训练后的文本处理模型。
在第一方面的一些实施例中,利用训练样本集中的待处理文本样本组训练预设的文本处理模型,直至满足训练停止条件,得到训练后的文本处理模型,具体包括:
对每个待处理文本样本组,分别执行以下步骤:
将待处理文本样本组输入至预设文本处理模型中的第一网络,确定与每一待处理文本样本对应的至少一个标有参考特征标记的参考文本编码向量,参考特征标记用于表示参考文本编码向量的语义特征;
将至少一个参考文本编码向量输入至预设文本处理模型中的第二网络,确定与至少一个参考文本编码向量对应的至少一个参考待处理词语、与每个参考待处理词语对应的参考词语开始位置和参考词语结束位置;
将至少一个参考文本编码向量、至少一个参考待处理词语、与每个参考待处理词语对应的参考词语开始位置和参考词语结束位置输入至预设文本处理模型中的第三网络,确定每一待处理文本样本对应的参考概率;
根据目标待处理文本样本的参考概率和目标待处理文本样本的标签概率,确定预设文本处理模型的损失函数值,目标待处理文本样本是待处理文本样本组中的任一个;
在损失函数值不满足训练停止条件的情况下,调整文本处理模型的模型参数,并利用待处理文本样本组训练参数调整后的文本处理模型,直至损失函数值满足训练停止条件,得到训练后的文本处理模型。
在第一方面的一些实施例中,预设文本处理模型中的第二网络包括双向长短期记忆网络和向量随机网络。
在第一方面的一些实施例中,将至少一个参考文本编码向量、至少一个参考待处理词语、与每个参考待处理词语对应的参考词语开始位置和参考词语结束位置输入至预设文本处理模型中的第三网络,确定每一待处理文本样本对应的参考概率,包括;
对每一待处理文本样本,分别执行以下步骤:
根据待处理文本样本中的至少一个参考文本编码向量、与至少一个参考文本编码向量对应的至少一个参考待处理词语、与参考待处理词语对应的参考词语开始位置和参考词语结束位置,拼接得到至少一个拼接向量;
根据至少一个拼接向量,确定每一待处理文本样本对应的参考概率。
在第一方面的一些实施例中,在确定待处理文本所属领域属于预设领域的概率之后,方法还包括:
在概率不大于预设阈值的情况下,根据待处理文本更新预设领域的知识库。
第二方面,本申请实施例提供了一种文本处理装置,装置包括:第一获取模块,用于获取待处理文本;
第一确定模块,用于将待处理文本输入至预先训练的文本处理模型中,确定待处理文本所属领域属于预设领域的概率;
第二确定模块,用于在概率大于预设阈值的情况下,从预设领域的知识库中确定对待处理文本进行回答的信息。
第三方面,提供一种文本处理设备,包括:存储器,用于存储计算机程序指令;处理器,用于读取并运行存储器中存储的计算机程序指令,以执行第一方面和第二方面中任一可选的实施方式提供的文本处理方法。
第四方面,提供一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面和第二方面中的任一可选的实施方式提供的文本处理方法。
本申请的实施例提供的技术方案至少带来以下有益效果:
本申请实施例是在获取用户输入待处理文本的情况下,将待处理文本输入至预先训练的文本处理模型中,以此确定待处理文本所属领域属于预设领域的概率,进而可以在待处理文本大概率属于预设领域的情况下,从该预设领域的知识库中查找到与该待处理文本对应的且可以对该待处理文本进行回答的信息。如此,本申请能够通过文本处理模型先确定文本所属领域,然后从该领域所对应的知识库中查找可对待处理文本进行回答的相关信息,从而提高了查找对该文本进行回答的相关信息的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本处理方法中的训练模型流程示意图;
图2是本申请实施例提供的另一种文本处理方法中的训练模型流程示意图;
图3是本申请实施例提供的一种文本处理模型中第二网络的模型结构示意图;
图4是本申请实施例提供的一种双向长短期记忆网络结构示意图;
图5是本申请实施例提供的一种文本处理方法的流程示意图;
图6是本申请实施例提供的另一种文本处理方法的流程示意图;
图7是本申请实施例提供的一种文本处理装置的结构示意图;
图8是本申请实施例提供的一种文本处理设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
为了解决现有技术中存在的无法准确识别文本所属领域,进而无法准确得到可回复该文本的相关信息的问题,本申请实施例提供一种文本处理方法、装置、设备及介质。
需要说明的是,本申请实施例提供的文本处理方法中,需要利用预先训练好的文本处理模型对文本进行处理,因此,在利用文本处理模型进行文本处理之前,需要先训练好文本处理模型。因此,下面首先结合附图描述本申请实施例提供的文本处理模型的训练方法的具体实施方式。
本申请实施例提供一种文本处理模型的训练方法具体可以通过以下步骤来实现:
一、获取训练样本集。
这里,训练样本集中包括多个待处理文本样本组,每一个待处理文本样本组包括待处理文本样本及其对应的标签概率,该标签概率表征为待处理文本样本所属领域属于参考预设领域的概率。其中,待处理文本样本的所属领域和参考预设领域可以是电信领域、服装领域,护肤品领域等领域,也可以是上述领域的下级细分领域。例如,电信领域可以细分为流量套餐领域、话费充值领域等领域。
在一个可能的实施例中,如图1所示,获取训练样本集具体可以包括以下步骤:
S110、获取多个待处理文本样本。
S120、人工标注与多个待处理文本样本一一对应的标签概率。
S130、将获取的待处理文本样本以及人工标注的与每一待处理文本样本对应的标签概率整合成训练样本集。
通过对获取的多个待处理文本样本进行人工标注,得到与多个待处理文本样本一一对应的标签概率。在得到标签概率之后,进一步地将多个待处理文本样本以及对应的标签概率进行整和,可以得到训练集。如此,方便了后续模型的顺利训练。
下面介绍各步骤的具体实现方式。
首先,涉及S110,获取的多个待处理文本样本可以是直接通过智能客服系统获取用户输入的文本,或是在数据库中提取用户输入文本的历史数据。其中,待处理文本样本中包括至少一个参考待处理词语。
并且,为了方便训练,在获取待处理文本样本之后,可以将获取的待处理文本样本处理为如下格式:{“text_id”:3,“text”:"流量套餐显示不出来怎么办:”,“lab_result“:【{“mention”:“流量套餐”,“offset”:0,“kb_id”:183}】},其中,text_id为待处理文本样本序号,mention为参考待处理词语,offset为参考待处理词语相对待处理文本的偏移量,kb_id为待处理文本样本对应的相关信息在知识库中的id号,待处理文本样本的具体格式在此不作限定。
另外,在获取待处理文本样本的过程中,也可以根据多个待处理文本样本中的参考待处理词语或者其涉及到的领域内的文本范本,建立该领域的知识库,便于后续在对应的领域知识库中查找对应的可对待处理文本进行回答的相关信息。具体地,知识库中的数据格式可以为{text_id:“text”},例如,{1:“移动公司”},具体的建立知识库的方式以及知识库中的数据格式,在此不作过多限定。
在一个示例中,在待处理文本样本获取的过程中,为了准确得到文本处理结果,进而准确得到训练后的模型,可以在S110和S120之间,对待处理文本样本进行预处理。
作为一示例,当获取的待处理文本样本可能存在因篇幅过长导致后续文本处理时间过长时,预处理可以为:
按照文本预设长度将待处理文本样本进行截断。
本步骤可以具体为:在保证待处理文本样本含有尽可能多的参考待处理词语的情况下,按照文本预设长度将待处理文本样本进行截断。其中,文本预设长度可以是基于实际需要人为设定的文本长度,文本预设长度的具体设置,在此不作限定。例如,文本预设长度可以设置为256个字符。如此,可以通过设置文本预设长度来对待处理文本样本的长度进行截断,从而缩短了文本处理的时间,提高了文本处理的效率。
作为另一个示例,当获取的待处理文本样本中可能含有特殊符号,以致于文本处理的结果不够准确,为了提高文本处理结果的准确性,预处理可以为:
去除待处理文本样本中的特殊符号。
其次,涉及S120,标签概率表征为该待处理文本样本的所属领域属于参考预设领域的概率,可以根据该标签概率判断待处理文本样本是否属于参考预设领域。
然后,涉及S130,这里需要说明的是,由于文本处理模型需要进行多次迭代训练,以调整其损失函数值,至损失函数值满足训练停止条件,得到训练后的文本处理模型。而每次迭代训练中,若只输入一个待处理文本样本,样本量太少不利于文本处理模型的训练调整,因此,将训练集分为多个待处理文本样本组。其中,每一个待处理文本样本组中包含待处理文本样本以及其对应标签概率。如此可以利用训练样本集中的多个待处理文本样本组对文本处理模型进行迭代训练。
二、利用训练样本集中的待处理文本样本组训练预设的文本处理模型,直至满足训练停止条件,得到训练后的文本处理模型。
如图2所示,本步骤具体可以有以下步骤:
S210,将待处理文本样本组输入至预设文本处理模型中的第一网络,确定与每一待处理文本样本对应的至少一个标有参考特征标记的参考文本编码向量。
S220,将至少一个参考文本编码向量输入至预设文本处理模型中的第二网络,确定与至少一个参考文本编码向量对应的至少一个参考待处理词语、与每个参考待处理词语对应的参考词语开始位置和参考词语结束位置。
S230,将至少一个参考文本编码向量、至少一个参考待处理词语、与每个参考待处理词语对应的参考词语开始位置和参考词语结束位置输入至预设文本处理模型中的第三网络,确定每一待处理文本样本对应的参考概率。
S240,根据目标待处理文本样本的参考概率和目标待处理文本样本的标签概率,确定预设文本处理模型的损失函数值。
S250,在损失函数值不满足训练停止条件的情况下,调整文本处理模型的模型参数,并利用待处理文本样本组训练参数调整后的文本处理模型,直至损失函数值满足训练停止条件,得到训练后的文本处理模型。
下面介绍各步骤的具体实现方式。
首先,涉及S210,参考文本编码向量可以是从待处理文本样本提取的部分文本。参考特征标记用于表示参考文本编码向量的语义特征。预设文本处理模型中的第一网络可以是Bert(Bidirectional Encoder Representation from Transformers,双向Transformer的Encoder)预训练模型。相应地,在预设文本处理模型中的第一网络为Bert预训练模型的情况下,参考特征标记可以为CLS标记,该标记为Bert预训练模型编码时加入的特殊标记,能够在Bert预训练模型进行预训练时学习到待处理文本样本的句子级语义特征。对于预设文本处理模型的第一网络以及对应的参考特征标记不作过多限定。
并且,预设文本处理模型中的第一网络输出的参考文本编码向量可以是具有shape=(批次大小,句子字符数,隐藏层编码维度)大小的文本编码向量。在预设文本处理模型的第一网络为Bert预训练模型的情况下,shape=(批次大小,句子字符数,隐藏层编码维度)中的隐藏层编码维度可以是768,句子字符数在这里可以定义为256个,批次大小的数值在训练过程中可以根据实际需要进行人为的设定。另外,为了方便后续文本处理模型的训练,可以将输出结果按照待处理文本样本的编码(如id号)和生成的参考文本编码向量的对应关系以文件格式进行保存,具体的文件保存格式,在此不作限定。例如,可以保存为pkl文件格式。
其次,涉及S220,预设文本处理模型中第二网络可以包括双向长短期记忆网络和向量随机网络,本申请对于第二网络具体包括的网络不作过多限定。另外,一个参考文本编码向量对应至少一个参考待处理词语。
具体地,预设文本处理模型中的第二网络模型结构如图3所示,图中待处理文本样本经过预编码处理后进入ALBERT进行预训练,ALBERT为BERT预训练模型的轻量化版本,其性能足以支撑识别参考待处理词语任务的需求。其中,CLS为句首加入的特殊标记,SEP为句子分隔符,Embedding为参考文本编码向量。从ALBERT中得到参考文本编码向量Embedding后送入双向长短期记忆网络进行学习,最终得到针对B、I、O概率的输出,经过向量随机场处理后由维特比算法得出组合概率最大的标注组合。
其中,第二网络中所包含的双向长短期记忆网络的实质是通过LSTM层将待处理文本样本的上下文特征进行提取。其中,LSTM层包括某时刻的输入词,细胞状态,临时细胞状态,隐层状态,遗忘门,记忆门,输出门。LSTM层的计算过程可以概括为,通过对细胞状态中遗忘信息和记忆新的信息使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态,其中遗忘信息、记忆新的信息与输出通过上个时刻的隐层状态和当前输入计算出来的遗忘门,记忆门,输出门来控制。通过LSTM层,能够将当前输入的参考文本编码向量的上文信息融合到当前的输出中。
具体地,双向长短期记忆网络的具体结构如图4所示。在图中这三个门分别称为遗忘门、输入门和输出门。LSTM层的第一步就是决定细胞状态需要丢弃哪些信息。这部分操作是通过一个称为遗忘门的sigmoid单元来处理的。在输入ht-1和xt之后,Ct-1的每个神经元输出一个0-1之间的向量,其中,ht-1和xt表示为网络输入,Ct-1为网络输出,该向量里面的0-1值表示细胞状态中的哪些信息保留或丢弃多少。0表示不保留,1表示都保留。计算公式(1)如下所示:
ft=σ(Wf·[ht-1,xt]+bf) (1)
式中,ft为遗忘门的控制信息,用于减少t-1时C中的信息,[ht-1,xt]为当前时刻的输入xt和上一时刻的输出ht-1的拼接结果,σ表示softmax激活函数,Wf和bf则分别为遗忘门的权重及偏置值。
下一步是决定给细胞状态添加哪些新的信息。这一步又分为两个步骤,首先,利用上一时刻的输出通过一个称为输入门的操作来决定更新哪些信息。然后通过一个tanh层得到新的候选细胞信息,这些信息可能会被更新到细胞信息中。计算公式(2)如下所示:
it=σ(Wi·[ht-1,xt]+bi) (2)
式中,it为记忆门的控制信息,Wi和bi为记忆门的权重及偏置值。
之后进行细胞状态的更新,计算公式(3)如下所示:
Ct=ft×Ct-1+it×tanh(WC·[ht-1,xt]+bC) (3)
式中,Ct为新的细胞状态,Ct-1为前一时刻的细胞状态,Wc、bc分别反映计算临时细胞状态的权重及偏置值。
更新完细胞状态后需要根据输入来判断输出细胞的哪些状态特征。这里需要将输入经过一个称为输出门的sigmoid层得到判断条件,然后将细胞状态经过tanh层得到一个-1~1之间值的向量,该向量与输出门得到的判断条件相乘就得到了最终该LSTM单元的输出。计算公式(4)和公式(5)如下所示:
ht=ot×tanhCt (5)
式中,ot为该门的控制信息,Wo、bo则分别反映该门的权重及偏置值。
双向长短期记忆网络能够捕获上下文的信息。在使用Bert进行编码之后,再次使用了双向长短期记忆网络,其目的是为了能够更好的对短文本捕获上下文信息。向量随机场对BiLSTM的输出进行概率分布的预测,使得输出的序列符合实体出现的场景。
另外,为了便于得到预设文本处理模型的第三网络的输入,进而准确得到参考概率,可以将输出的与参考待处理词语对应的参考词语开始位置标注为“B”,参考待处理词语的其他部分利用“I”进行标注,待处理文本的其他部分使用“O”进行标记,以便得到预设文本处理模型的第三网络的输入。
在一个示例中,为了更好的训练预设的文本处理模型,在训练的过程中,可以使用利用训练集的70%进行训练,30%作为验证集。在进行预设次数的训练之后,在连续三次损失不再降低的情况下保存模型,最终模型对验证集识别的准确率为97.3%。具体的训练过程依据实际情况而定,此处不作过多限定。
然后,涉及S230,参考概率是经预设的文本处理模型对待处理文本样本进行识别后,得到的待处理文本样本所属领域属于预设领域的概率。
在一个实施例中,为了利用预设的文本处理模型中的第三网络得到参考概率。这里,将至少一个参考文本编码向量、至少一个参考待处理词语、与每个参考待处理词语对应的参考词语开始位置和参考词语结束位置输入至预设文本处理模型中的第三网络,确定每一待处理文本样本对应的参考概率,可以包括;
对每一待处理文本样本,分别执行以下步骤:
根据待处理文本样本中的至少一个参考文本编码向量、与至少一个参考文本编码向量对应的至少一个参考待处理词语、与参考待处理词语对应的参考词语开始位置和参考词语结束位置,拼接得到至少一个拼接向量;
根据至少一个拼接向量,确定每一待处理文本样本对应的参考概率。
其中,拼接向量是基于至少一个的参考文本编码向量,每一个参考文本编码向量中的至少一个参考待处理词语、每一个参考待处理词语对应的参考词语开始位置和参考词语结束位置等多个输入连接到一个输出的向量,简言之,拼接也就是将除主轴外维度相同的多个向量,进行简单合并。并且,拼接向量和参考文本编码向量一一对应的。
其实,这里可以将预设文本处理抽象成一个分类问题,因此,可以选用激活函数为Sigmoid的全连接层作为输出,以充当分类器的角色。Sigmoid的函数如公式(6)所示:
将经过Bert预训练模型编码后至少一个的参考文本编码向量,每一个参考文本编码向量中的至少一个参考待处理词语、每一个参考待处理词语对应的参考词语开始位置和参考词语结束位置通过将预设文本处理模型的第三网络的输入进行拼接,并将拼接结果传入到最后的分类器中。为了能够使第三网络更适合于任务目标,方案在分类器之前还添加了一层激活函数为ReLU的全连接层。其中,ReLU的函数如公式(7)为:
如此,可以通过之前得到的训练集,标注其中待处理文本样本的向量矩阵。其中,该向量矩阵中包括待处理文本样本的参考文本编码向量,参考待处理词语、以及与每个参考待处理词语对应的参考词语开始位置和参考词语结束位置,还有表示为该待处理文本样本所属领域是否属于参考预设领域的参考概率。在得到向量矩阵之后,进一步进行训练,得到最终的文本处理模型。
在一个示例中,为了保证数据样本均衡,以减低对模型结果产生不利影响,在训练过程中,待处理文本样本所属领域属于预设领域的高标签概率数据和低标签概率数据的比例可以为1:3。除此之外,可以对数据使用合成少数类过采样(Synthetic MinorityOversampling Technique,SMOTE)的方法进行数据增强。SMOTE过采样的步骤如下:
设训练集的一个少数类的样本数为T,考虑该少数类的一个样本i,其特征向量为xi,i∈{1,...,T}:
(1)首先从该少数类的全部T个样本中找到样本χi的k个近邻(例如用欧氏距离),记为χi(near),near∈{1,...,k};
(2)然后从这k个近邻中随机选择一个样本χi(nn),再生成一个0到1之间的随机数ζ1,从而合成一个新样本χi1:χi1=χi+ζ1·(χi(nn)-χi)。
(3)将步骤2重复进行N次,从而可以合成N个新样本:χinew,new∈1,...,N。
在进行数据加强之后,模型训练也可以采用7折交叉验证的方式,对模型进行训练,进而选择最好的保存为最终模型。具体的,可以使用3000条格式相同,但未参与训练的数据进行测试,得到的最终参考概率为0.873。在客服系统中,从用户的输入开始到输出结果,所需时间为2.5s,符合实际需求。实验证明,本方案所设计的智能客服系统中针对特定领域的文本处理模型,相对于其他文本处理模型对单一领域具有更好的识别率,由于使用二分类做最终的预测,模型在保证准确率的前提下缩短了响应时间,使得文本处理模型能够很好的服务于客服系统。
模型评价选择的参考概率,如下公式(8)至公式(10)所示:
其中TP为预测正确的数目,FN为标注匹配被误判为不匹配的样本数目,FP为标注为不匹配被误判为匹配的样本数目,precision为预测正确的参考概率,recall为预测错误的参考概率,Score为人为设定的误差概率。
再次,涉及S240,目标待处理文本样本是待处理文本样本组中的任意一个。具体地,基于目标待处理文本样本中最终得到的参考概率以及之前标注的标签概率,确定预设文本处理模型的损失函数值。
最后,涉及S250,为了得到训练后的文本处理模型,在损失函数值不满足训练停止条件的情况下,调整文本处理模型的模型参数,并利用待处理文本样本组训练参数调整后的文本处理模型,直至损失函数值满足训练停止条件,得到训练后的文本处理模型。
基于上述实施例训练得到的文本处理模型,本申请还提供了一种文本处理方法的具体实施方式,具体结合图5进行详细说明。
S510,获取待处理文本。
S520,将待处理文本输入至预先训练的文本处理模型中,确定待处理文本所属领域属于预设领域的概率。
S530,在概率大于预设阈值的情况下,从预设领域的知识库中确定对待处理文本进行回答的信息。
由此,可以在获取用户输入待处理文本的情况下,将待处理文本输入至预先训练的文本处理模型中,以此确定待处理文本所属领域属于预设领域的概率,进而可以在待处理文本大概率属于预设领域的情况下,从该预设领域的知识库中查找到与该待处理文本对应的且可以对该待处理文本进行回答的信息。如此,本申请能够通过文本处理模型先确定文本所属领域,然后从该领域所对应的知识库中查找可对待处理文本进行回答的相关信息,从而提高了查找对该文本进行回答的相关信息的准确性。
下面对上述步骤进行详细说明,具体如下所示:
首先,涉及S510,待处理文本表征为需要得到相关信息回答的文本,其中,待处理文本中包含至少一个待处理词语。在一些实施例中,可以通过各种应用程序中的智能客服系统获取用户输入的文本作为待处理文本,具体的获取待处理文本的方式在此不作过多限定。
其次,涉及S520,将待处理文本输入至预先训练的文本处理模型,以得到与该待处理文本对应的,且表征该待处理文本领域属于预设领域的概率,以此可以确定待处理文本所属领域。其中,待处理文本所属领域和预设领域可以是电信领域、服装领域,护肤品领域等领域,也可以是上述领域的下级细分领域。例如,电信领域可以细分为流量套餐领域、话费充值领域等领域。以此,通过确定待处理文本所属领域属于预设领域的概率,方便后续准确得到与该待处理文本对应的且可对该待处理文本进行回答的相关信息。
在一个具体的实施例中,上述涉及的S520具体可包括:S521-S523。
S521,将待处理文本输入至预先训练的文本处理模型中的第一网络,确定至少一个标有特征标记的文本编码向量,特征标记用于表示文本编码向量的语义特征。
这里,文本编码向量是从待处理文本提取的部分文本,预先训练的文本处理模型中的第一网络可以是Bert预训练模型,在第一网络是Bert预训练模型的情况下,特征标记可以是CLS标记,该标记为Bert预训练模型编码时加入的特殊标记,能够在Bert预训练模型进行预训练时学习到待处理文本样本的句子级语义特征。对于预先训练的文本处理模型的第一网络以及对应的特征标记不作过多限定。
其中,预先训练的文本处理模型中的第一网络输出的文本编码向量可以是具有shape=(批次大小,句子字符数,隐藏层编码维度)大小的文本编码向量。在预先训练的文本处理模型的第一网络为Bert预训练模型的情况下,shape=(批次大小,句子字符数,隐藏层编码维度)中的隐藏层编码维度可以是768,句子字符数在这里可以定义为256个,批次大小的数值可以根据实际需要进行人为的设定。并且,可以将输出结果按照待处理文本的编码(如id号)和生成的文本编码向量的对应关系以文件格式进行保存,具体的文件保存格式不作限定。例如,可以保存为pkl文件格式。
S522,将至少一个文本编码向量输入至预先训练的文本处理模型中的第二网络,确定与至少一个文本编码向量对应的至少一个待处理词语、与每个待处理词语对应的词语开始位置和词语结束位置。
具体地,预先训练的文本处理模型中第二网络可以包括双向长短期记忆网络和向量随机网络,本申请对于第二网络具体包括的网络不作过多限定。另外,一个文本编码向量对应至少一个参考待处理词语。
S523,将至少一个文本编码向量、至少一个待处理词语、与每个待处理词语对应的词语开始位置和词语结束位置输入至预先训练的文本处理模型中的第三网络,确定待处理文本所属领域属于预设领域的概率。
具体地,基于输入至预先训练的文本处理模型中的第三网络中的至少一个文本编码向量、至少一个待处理词语、与每个待处理词语对应的词语开始位置和词语结束位置,生成至少一个向量,进而可以根据至少一个向量确定待处理文本所属领域属于预设领域的概率。其中,涉及的向量是基于至少一个的文本编码向量,每一个文本编码向量中的至少一个待处理词语、每一个待处理词语对应的词语开始位置和词语结束位置等多个输入连接到一个输出的向量,简言之,也就是将除主轴外维度相同的多个向量,进行简单合并。其中,向量与文本编码向量一一对应的。
由此,在将待处理文本输入至预先训练的文本处理模型中的第一网络中,确定至少一个文本编码向量之后,将确定的至少一个文本编码向量依次输入至预先训练的文本处理模型中的第二网络中,确定至少一个待处理词语、与每个待处理词语对应的词语开始位置和词语结束位置。最后,将上述确定的各个信息输入至预先训练的文本处理模型中的第三网络中,提高了确定的待处理文本所属领域属于预设领域的概率的准确性。
然后,涉及S530,预设阈值可以是基于历史数据或者实际需求设置的阈值,在待处理文本所属领域属于预设领域的概率大于阈值的情况下,可以从预先构建的知识库中查找到可以对待处理文本进行回答的信息,并将得到的信息传入智能客服系统中。
在一个可能的实施例中,上述涉及的文本处理方法还可以包括:
在概率不大于预设阈值的情况下,根据待处理文本更新预设领域的知识库。
也就是说,在待处理文本所属领域属于预设领域的概率小于预设阈值的情况下,可以根据待处理文本、以及其中的待处理词语、词语开始位置、词语结束位置传递给知识库并进行编号。
以此,可以通过在待处理文本所属领域属于预设领域的概率小于预设阈值的情况下,实时更新预设领域的知识库,以便后续进行文本处理时可以得到更加准确完整的处理结果。
另外,为了提高文本处理的效率以及准确性,在将待处理文本输入至预先训练的文本处理模型之前,可以对待处理文本进行预处理。
作为一示例,为了避免因待处理文本篇幅过长导致文本处理时间过长,预处理可以为:
在保证待处理文本含有尽可能多的待处理词语的情况下,按照预设长度将待处理文本进行截断。
其中,预设长度可以是基于实际需要人为设定的文本长度,预设长度的具体设置,在此不作限定。例如,预设长度可以设置为256个字符,如此,通过设置预设长度来对待处理文本的长度进行截断,从而缩短了文本处理的时间,提高了文本处理的效率。
作为另一个示例,为了避免因待处理文本中含有特殊字符导致的文本处理结果不够准确,预处理可以为:
去除待处理文本中含有的特殊字符。
除此之外,为了保证获取对待处理文本进行回答的相关信息的完整性,上述涉及的文本处理方法,在获取待处理文本之前,还可以包括:
构建预设领域的知识库。
其中,知识库中的数据格式可以为{text_id:“text”},例如,{1:“移动公司”},具体的知识库中数据格式可依据实际需要进行变更,在此不作过多限定。在一些实施例中,预设领域的知识库的建立可以依据预设领域内文本范本或是基于历史用户输入文本进行构建,预设领域的知识库的具体构建,在此不作限定。
基于相同的发明构思,本申请实施例还提供了一种文本处理装置。具体结合图7进行说明
图7是本申请实施例提供的一种文本处理装置的结构示意图。
如图7所示,该文本处理装置可以包括:获取模块、第一确定模块和第二确定模块。
第一获取模块710,用于获取待处理文本;
第一确定模块720,用于将待处理文本输入至预先训练的文本处理模型中,确定待处理文本所属领域属于预设领域的概率;
第二确定模块730,用于在概率大于预设阈值的情况下,从预设领域的知识库中确定对待处理文本进行回答的信息。
在一些实施例中,第一确定模块具体可以包括:
第一确定子模块,用于将待处理文本输入至预先训练的文本处理模型中的第一网络,确定至少一个标有特征标记的文本编码向量,特征标记用于表示文本编码向量的语义特征;
第二确定子模块,用于将至少一个文本编码向量输入至预先训练的文本处理模型中的第二网络,确定与至少一个文本编码向量对应的至少一个待处理词语、与每个待处理词语对应的词语开始位置和词语结束位置;
第三确定子模块,用于将至少一个文本编码向量、至少一个待处理词语、与每个待处理词语对应的词语开始位置和词语结束位置输入至预先训练的文本处理模型中的第三网络,确定待处理文本所属领域属于预设领域的概率。
在一些实施例中,装置还可以包括:
第二获取模块,用于获取训练样本集,训练样本集中包括多个待处理文本样本组,每一个待处理文本样本组包括待处理文本样本及其对应的标签概率;
训练模块,用于利用训练样本集中的待处理文本样本组训练预设的文本处理模型,直至满足训练停止条件,得到训练后的文本处理模型。
在一些实施例中,训练模块具体可以用于:
对每个待处理文本样本组,分别执行以下步骤:
将待处理文本样本组输入至预设文本处理模型中的第一网络,确定与每一待处理文本样本对应的至少一个标有参考特征标记的参考文本编码向量,参考特征标记用于表示参考文本编码向量的语义特征;
将至少一个参考文本编码向量输入至预设文本处理模型中的第二网络,确定与至少一个参考文本编码向量对应的至少一个参考待处理词语、与每个参考待处理词语对应的参考词语开始位置和参考词语结束位置;
将至少一个参考文本编码向量、至少一个参考待处理词语、与每个参考待处理词语对应的参考词语开始位置和参考词语结束位置输入至预设文本处理模型中的第三网络,确定每一待处理文本样本对应的参考概率;
根据目标待处理文本样本的参考概率和目标待处理文本样本的标签概率,确定预设文本处理模型的损失函数值,目标待处理文本样本是待处理文本样本组中的任一个;
在损失函数值不满足训练停止条件的情况下,调整文本处理模型的模型参数,并利用待处理文本样本组训练参数调整后的文本处理模型,直至损失函数值满足训练停止条件,得到训练后的文本处理模型。
在一些实施例中,预设文本处理模型中的第二网络包括双向长短期记忆网络和向量随机网络。
在一些实施例中,训练模块具体可以用于:
对每一待处理文本样本,分别执行以下步骤:
根据待处理文本样本中的至少一个参考文本编码向量、与至少一个参考文本编码向量对应的至少一个参考待处理词语、与参考待处理词语对应的参考词语开始位置和参考词语结束位置,拼接得到至少一个拼接向量;
根据至少一个拼接向量,确定每一待处理文本样本对应的参考概率。
在一些实施例中,该装置还包括:
更新模块,用于在概率不大于预设阈值的情况下,根据待处理文本更新预设领域的知识库。
由此,可以在获取用户输入待处理文本的情况下,将待处理文本输入至预先训练的文本处理模型中,以此确定待处理文本所属领域属于预设领域的概率,进而可以在待处理文本大概率属于预设领域的情况下,从该预设领域的知识库中查找到与该待处理文本对应的且可以对该待处理文本进行回答的信息,如此,本申请能够通过文本处理模型先确定文本所属领域,然后从该领域所对应的知识库中查找可对待处理文本进行回答的相关信息,从而提高了查找对该文本进行回答的相关信息的准确性。
基于同一发明构思,本申请实施例还提供了一种电子设备,具体结合图8进行详细说明。
图8是本申请实施例提供的一种文本处理设备的结构示意图。
如图8所示,本实施例中的文本处理设备800包括输入设备801、输入接口802、中央处理器803、存储器804、输出接口805、以及输出设备806。其中,输入接口802、中央处理器803、存储器804、以及输出接口805通过总线810相互连接,输入设备801和输出设备806分别通过输入接口802和输出接口805与总线810连接,进而与信息获取设备800的其他组件连接。
具体地,输入设备801接收来自外部的输入信息,并通过输入接口802将输入信息传送到中央处理器803;中央处理器803基于存储器804中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器804中,然后通过输出接口805将输出信息传送到输出设备806;输出设备806将输出信息输出到信息获取设备800的外部供用户使用。
在一个实施例中,图8所示的文本处理设备800包括:存储器804,用于存储程序;处理器803,用于运行存储器中存储的程序,以执行本申请实施例提供的图5或图6所示实施例的方法。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本申请实施例提供的图5或图6所示实施例的方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和展示出了若干具体地步骤作为示例。但是,本申请的方法过程并不限于所描述和展示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ApplicationSpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory,ROM)、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(Radio Frequency,RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种文本处理方法,其特征在于,包括:
获取待处理文本;
将所述待处理文本输入至预先训练的文本处理模型中,确定所述待处理文本所属领域属于预设领域的概率;
在所述概率大于预设阈值的情况下,从所述预设领域的知识库中确定对所述待处理文本进行回答的信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本输入至预先训练的文本处理模型中,确定所述待处理文本所属领域属于预设领域的概率,包括:
将所述待处理文本输入至预先训练的文本处理模型中的第一网络,确定至少一个标有特征标记的文本编码向量,所述特征标记用于表示所述文本编码向量的语义特征;
将所述至少一个文本编码向量输入至预先训练的文本处理模型中的第二网络,确定与所述至少一个文本编码向量对应的至少一个待处理词语、与每个所述待处理词语对应的词语开始位置和词语结束位置;
将所述至少一个文本编码向量、所述至少一个待处理词语、与每个所述待处理词语对应的词语开始位置和词语结束位置输入至预先训练的文本处理模型中的第三网络,确定所述待处理文本所属领域属于预设领域的概率。
3.根据权利要求2所述的方法,其特征在于,在所述获取待处理文本之前,所述方法还包括:
获取训练样本集,所述训练样本集中包括多个待处理文本样本组,每一个待处理文本样本组包括待处理文本样本及其对应的标签概率;
利用所述训练样本集中的待处理文本样本组训练预设的文本处理模型,直至满足训练停止条件,得到训练后的文本处理模型。
4.根据权利要求3所述的方法,其特征在于,所述利用所述训练样本集中的待处理文本样本组训练预设的文本处理模型,直至满足训练停止条件,得到训练后的文本处理模型,具体包括:
对每个所述待处理文本样本组,分别执行以下步骤:
将所述待处理文本样本组输入至预设文本处理模型中的第一网络,确定与每一所述待处理文本样本对应的至少一个标有参考特征标记的参考文本编码向量,所述参考特征标记用于表示所述参考文本编码向量的语义特征;
将所述至少一个参考文本编码向量输入至预设文本处理模型中的第二网络,确定与所述至少一个参考文本编码向量对应的至少一个参考待处理词语、与每个所述参考待处理词语对应的参考词语开始位置和参考词语结束位置;
将所述至少一个参考文本编码向量、所述至少一个参考待处理词语、与每个所述参考待处理词语对应的参考词语开始位置和参考词语结束位置输入至预设文本处理模型中的第三网络,确定每一所述待处理文本样本对应的参考概率;
根据目标待处理文本样本的参考概率和所述目标待处理文本样本的标签概率,确定所述预设文本处理模型的损失函数值,所述目标待处理文本样本是所述待处理文本样本组中的任一个;
在所述损失函数值不满足训练停止条件的情况下,调整所述文本处理模型的模型参数,并利用所述待处理文本样本组训练参数调整后的文本处理模型,直至所述损失函数值满足所述训练停止条件,得到训练后的文本处理模型。
5.根据权利要求4所述的方法,其特征在于,所述预设文本处理模型中的第二网络包括双向长短期记忆网络和向量随机网络。
6.根据权利要求3所述的方法,其特征在于,所述将所述至少一个参考文本编码向量、所述至少一个参考待处理词语、与每个所述参考待处理词语对应的参考词语开始位置和参考词语结束位置输入至预设文本处理模型中的第三网络,确定每一所述待处理文本样本对应的参考概率,包括;
对每一所述待处理文本样本,分别执行以下步骤:
根据所述待处理文本样本中的至少一个参考文本编码向量、与所述至少一个参考文本编码向量对应的至少一个参考待处理词语、与所述参考待处理词语对应的参考词语开始位置和参考词语结束位置,拼接得到至少一个拼接向量;
根据所述至少一个拼接向量,确定每一所述待处理文本样本对应的参考概率。
7.根据权利要求1所述的方法,其特征在于,在所述确定所述待处理文本所属领域属于预设领域的概率之后,所述方法还包括:
在所述概率不大于所述预设阈值的情况下,根据所述待处理文本更新所述预设领域的知识库。
8.一种文本处理装置,其特征在于,包括:
第一获取模块,用于获取待处理文本;
第一确定模块,用于将所述待处理文本输入至预先训练的文本处理模型中,确定所述待处理文本所属领域属于预设领域的概率;
第二确定模块,用于在所述概率大于预设阈值的情况下,从所述预设领域的知识库中确定对所述待处理文本进行回答的信息。
9.一种文本处理设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器读取并执行所述计算机程序指令,以实现如权利要求1-7任意一项所述的文本处理方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110599005.0A CN113254615A (zh) | 2021-05-31 | 2021-05-31 | 文本处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110599005.0A CN113254615A (zh) | 2021-05-31 | 2021-05-31 | 文本处理方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113254615A true CN113254615A (zh) | 2021-08-13 |
Family
ID=77183807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110599005.0A Pending CN113254615A (zh) | 2021-05-31 | 2021-05-31 | 文本处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254615A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113934830A (zh) * | 2021-10-19 | 2022-01-14 | 平安国际智慧城市科技股份有限公司 | 文本检索模型训练、问答检索方法、装置、设备及介质 |
CN114218940A (zh) * | 2021-12-23 | 2022-03-22 | 北京百度网讯科技有限公司 | 文本信息处理、模型训练方法、装置、设备及存储介质 |
CN116820429A (zh) * | 2023-08-28 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 代码处理模型的训练方法、装置、电子设备及存储介质 |
CN116975299A (zh) * | 2023-09-22 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 文本数据的判别方法、装置、设备及介质 |
WO2024169211A1 (zh) * | 2023-02-14 | 2024-08-22 | 华为云计算技术有限公司 | 基于云服务的代码生成模型的训练方法和代码生成方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN109543030A (zh) * | 2018-10-12 | 2019-03-29 | 平安科技(深圳)有限公司 | 客服机器人会话文本分类方法及装置、设备、存储介质 |
CN109918673A (zh) * | 2019-03-14 | 2019-06-21 | 湖北亿咖通科技有限公司 | 语义仲裁方法、装置、电子设备和计算机可读存储介质 |
CN111209383A (zh) * | 2020-01-06 | 2020-05-29 | 广州小鹏汽车科技有限公司 | 多轮对话的处理方法及处理装置、车辆、存储介质 |
CN111639160A (zh) * | 2020-05-29 | 2020-09-08 | 达闼机器人有限公司 | 领域识别的方法、交互的方法、电子设备及存储介质 |
CN111709241A (zh) * | 2020-05-27 | 2020-09-25 | 西安交通大学 | 一种面向网络安全领域的命名实体识别方法 |
CN111783439A (zh) * | 2020-06-28 | 2020-10-16 | 平安普惠企业管理有限公司 | 人机交互对话处理方法、装置、计算机设备及存储介质 |
CN111834014A (zh) * | 2020-07-17 | 2020-10-27 | 北京工业大学 | 一种医疗领域命名实体识别方法及系统 |
CN112199511A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 跨语言多来源垂直领域知识图谱构建方法 |
CN112307752A (zh) * | 2020-10-30 | 2021-02-02 | 平安科技(深圳)有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN112329467A (zh) * | 2020-11-03 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 地址识别方法、装置、电子设备以及存储介质 |
CN112364659A (zh) * | 2020-07-08 | 2021-02-12 | 西湖大学 | 一种无监督的语义表示自动识别方法及装置 |
CN112632264A (zh) * | 2020-12-30 | 2021-04-09 | 平安证券股份有限公司 | 智能问答方法、装置、电子设备及存储介质 |
-
2021
- 2021-05-31 CN CN202110599005.0A patent/CN113254615A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN109543030A (zh) * | 2018-10-12 | 2019-03-29 | 平安科技(深圳)有限公司 | 客服机器人会话文本分类方法及装置、设备、存储介质 |
CN109918673A (zh) * | 2019-03-14 | 2019-06-21 | 湖北亿咖通科技有限公司 | 语义仲裁方法、装置、电子设备和计算机可读存储介质 |
CN111209383A (zh) * | 2020-01-06 | 2020-05-29 | 广州小鹏汽车科技有限公司 | 多轮对话的处理方法及处理装置、车辆、存储介质 |
CN111709241A (zh) * | 2020-05-27 | 2020-09-25 | 西安交通大学 | 一种面向网络安全领域的命名实体识别方法 |
CN111639160A (zh) * | 2020-05-29 | 2020-09-08 | 达闼机器人有限公司 | 领域识别的方法、交互的方法、电子设备及存储介质 |
CN111783439A (zh) * | 2020-06-28 | 2020-10-16 | 平安普惠企业管理有限公司 | 人机交互对话处理方法、装置、计算机设备及存储介质 |
CN112364659A (zh) * | 2020-07-08 | 2021-02-12 | 西湖大学 | 一种无监督的语义表示自动识别方法及装置 |
CN111834014A (zh) * | 2020-07-17 | 2020-10-27 | 北京工业大学 | 一种医疗领域命名实体识别方法及系统 |
CN112199511A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 跨语言多来源垂直领域知识图谱构建方法 |
CN112307752A (zh) * | 2020-10-30 | 2021-02-02 | 平安科技(深圳)有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN112329467A (zh) * | 2020-11-03 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 地址识别方法、装置、电子设备以及存储介质 |
CN112632264A (zh) * | 2020-12-30 | 2021-04-09 | 平安证券股份有限公司 | 智能问答方法、装置、电子设备及存储介质 |
Non-Patent Citations (9)
Title |
---|
CUN-LI MAO 等: "Research on Answer Extraction Method for Domain Question Answering System(QA)", 2009 INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND SECURITY, pages 79 - 83 * |
XIAO ZHANG 等: "Named Entity Recognition for Terahertz Domain Knowledge Graph based on Albert-BiLSTM-CRF", 2020 IEEE 4TH INFORMATION TECHNOLOGY, NETWORKING, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (ITNEC), pages 2602 - 2606 * |
凌佩云: "基于神经网络语义匹配的自动问答系统研究与应用", 中国优秀硕士学位论文全文数据库 (信息科技辑), pages 138 - 861 * |
刘宇 等: "智能搜索和推荐系统 原理、算法与应用", 31 January 2021, 机械工业出版社, pages: 70 * |
徐帅博: "基于枸杞病虫害知识图谱的问答系统研究与实现", 中国优秀硕士学位论文全文数据库 (农业科技辑), pages 046 - 54 * |
朱晨光: "机器阅读理解", 30 April 2020, 机械工业出版社, pages: 61 * |
李旭锋: "中文问答系统中问句理解和相似度计算的研究与实现", 中国优秀硕士学位论文全文数据库 (信息科技辑), pages 138 - 1612 * |
李纲;潘荣清;毛进;操玉杰;: "整合BiLSTM-CRF网络和词典资源的中文电子病历实体识别", 现代情报, no. 04, pages 3 - 12 * |
田卫东;祖永亮;: "基于答案模式和语义特征融合的答案抽取方法", 计算机工程与应用, no. 13, pages 127 - 130 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113934830A (zh) * | 2021-10-19 | 2022-01-14 | 平安国际智慧城市科技股份有限公司 | 文本检索模型训练、问答检索方法、装置、设备及介质 |
CN113934830B (zh) * | 2021-10-19 | 2024-08-16 | 平安国际智慧城市科技股份有限公司 | 文本检索模型训练、问答检索方法、装置、设备及介质 |
CN114218940A (zh) * | 2021-12-23 | 2022-03-22 | 北京百度网讯科技有限公司 | 文本信息处理、模型训练方法、装置、设备及存储介质 |
CN114218940B (zh) * | 2021-12-23 | 2023-08-04 | 北京百度网讯科技有限公司 | 文本信息处理、模型训练方法、装置、设备及存储介质 |
WO2024169211A1 (zh) * | 2023-02-14 | 2024-08-22 | 华为云计算技术有限公司 | 基于云服务的代码生成模型的训练方法和代码生成方法 |
CN116820429A (zh) * | 2023-08-28 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 代码处理模型的训练方法、装置、电子设备及存储介质 |
CN116820429B (zh) * | 2023-08-28 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 代码处理模型的训练方法、装置、电子设备及存储介质 |
CN116975299A (zh) * | 2023-09-22 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 文本数据的判别方法、装置、设备及介质 |
CN116975299B (zh) * | 2023-09-22 | 2024-05-28 | 腾讯科技(深圳)有限公司 | 文本数据的判别方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113254615A (zh) | 文本处理方法、装置、设备及介质 | |
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN110046221B (zh) | 一种机器对话方法、装置、计算机设备及存储介质 | |
CN111708882A (zh) | 基于Transformer的中文文本信息缺失的补全方法 | |
CN110598869B (zh) | 基于序列模型的分类方法、装置、电子设备 | |
CN114490950B (zh) | 编码器模型的训练方法及存储介质、相似度预测方法及系统 | |
CN114090780A (zh) | 一种基于提示学习的快速图片分类方法 | |
CN113010683A (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
CN109376226A (zh) | 投诉文本的分类模型、构建方法、系统、分类方法和系统 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN115687934A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
CN113220828B (zh) | 意图识别模型处理方法、装置、计算机设备及存储介质 | |
CN111178082A (zh) | 一种句向量生成方法、装置及电子设备 | |
CN118246537B (zh) | 基于大模型的问答方法、装置、设备及存储介质 | |
CN118503494B (zh) | 面向多源异构知识库的大模型问答方法、装置和设备 | |
CN114241411A (zh) | 基于目标检测的计数模型处理方法、装置及计算机设备 | |
CN113590752A (zh) | 基于大数据的话题用户画像处理方法及人工智能服务器 | |
CN117633621A (zh) | 开集分类模型的训练方法、装置、电子设备及存储介质 | |
CN115690449A (zh) | 一种基于局部特征增强和并行解码器的图像标注方法 | |
CN110349570B (zh) | 语音识别模型训练方法、可读存储介质和电子设备 | |
CN111383641B (zh) | 语音识别方法、装置和控制器 | |
CN114170484A (zh) | 图片属性预测方法、装置、电子设备和存储介质 | |
KR102051085B1 (ko) | 인공 신경망을 이용하여 이름에 대한 국적 정보를 제공하는 장치 및 방법 | |
CN113361629A (zh) | 一种训练样本生成的方法、装置、计算机设备及存储介质 | |
CN112948251A (zh) | 软件自动测试方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |