CN113177104A - 基于自然语言处理的语句筛选方法、装置及计算机设备 - Google Patents

基于自然语言处理的语句筛选方法、装置及计算机设备 Download PDF

Info

Publication number
CN113177104A
CN113177104A CN202110468149.2A CN202110468149A CN113177104A CN 113177104 A CN113177104 A CN 113177104A CN 202110468149 A CN202110468149 A CN 202110468149A CN 113177104 A CN113177104 A CN 113177104A
Authority
CN
China
Prior art keywords
sentence
vector
statement
feature
general
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110468149.2A
Other languages
English (en)
Other versions
CN113177104B (zh
Inventor
康海梅
魏韬
马骏
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110468149.2A priority Critical patent/CN113177104B/zh
Publication of CN113177104A publication Critical patent/CN113177104A/zh
Application granted granted Critical
Publication of CN113177104B publication Critical patent/CN113177104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于自然语言处理的语句筛选方法、装置及计算机设备,方法包括:将特征文本集合的特征语句转换为第一语句特征向量并将每一通用语句转换为对应的第二语句特征向量,分别计算得到第一语句权重向量及第二语句权重向量后进行交叉计算,得到每一通用语句与每一特征语句之间的向量距离值,根据向量距离值获取通用文本集合中的多个通用语句组合形成通用语句组合,进行去重处理得到目标语句集合。本发明属于语义解析技术领域,通过上述方法,采用多头自注意力网络获取得到语句权重向量,并基于交叉计算得到的向量距离值筛选得到目标语句集合,可快速准确筛地选得到与特征文本集合相匹配的目标语句集合,并且提高了目标语句集合的质量。

Description

基于自然语言处理的语句筛选方法、装置及计算机设备
技术领域
本发明涉及语义解析技术领域,属于智慧城市中基于自然语言处理以对文本进行筛选的应用场景,尤其涉及一种基于自然语言处理的语句筛选方法、装置及计算机设备。
背景技术
随着语音识别的快速发展,在采用智能语音客服代替人工客服、在智能语音家居等场景中得到了越来越广泛的应用,语言处理模型是语音识别系统中的重要部分,在使用语言处理模型之前需要对其进行训练以提高语音识别的准确率。申请人发现在对语言处理模型进行训练的过程中,训练语料库的质量最终决定了语言处理模型的精确度,传统方法中均是选择尽可能多的训练语料对语言处理模型进行训练,然而训练后的语言处理模型通常仅用于特定的领域或特定的场景中,额外的训练语料对语言处理模型进行训练可能会对模型造成干扰,使模型在特定领域或特定场景中进行自然语言处理的精确度及处理效率下降。为提高语言处理模型在特定领域或特定场景中进行应用时的精确度及效率,常规技术方法均是对特定领域或特定场景的大量文本语料进行收集并对模型进行训练,然而这一技术方法需要较长时间收集文本语料信息,且获取到的语料难以保证均衡性,导致难以快速获取到高质量的训练文本语料。因此,现有的技术方法中存在难以快速获取高质量训练文本语料的问题。
发明内容
本发明实施例提供了一种基于自然语言处理的语句筛选方法、装置、计算机设备及存储介质,旨在解决现有技术方法中所存在的难以快速获取高质量训练文本语料的问题。
第一方面,本发明实施例提供了一种基于自然语言处理的语句筛选方法,其包括:
若接收到用户输入的特征文本集合,根据预置的转换词典及预存的神经网络对所述特征文本集中的每一特征语句进行转换得到对应的第一语句表征向量;
根据所述转换词典及所述神经网络对预置的通用文本集合中的每一通用语句进行转换得到对应的第二语句表征向量;其中所述通用文本集合包含的通用语句的数量大于所述特征文本集合包含的特征语句的数量;
将所述第一语句表征向量及所述第二语句表征向量分别输入预置的多头自注意力网络以计算得到对应的第一语句权重向量及第二语句权重向量;
对每一所述通用语句对应第一语句权重向量与每一所述特征语句对应第二语句权重向量进行交叉计算,得到每一所述通用语句与每一所述特征语句之间的向量距离值;
获取与每一所述特征语句之间的向量距离值满足预置的筛选条件的多个通用语句后组合得到通用语句集合;
对所述通用语句集合包含的通用语句进行去重处理得到目标语句集合。
第二方面,本发明实施例提供了一种基于自然语言处理的语句筛选装置,其包括:
特征语句转换单元,用于若接收到用户输入的特征文本集合,根据预置的转换词典及预存的神经网络对所述特征文本集中的每一特征语句进行转换得到对应的第一语句表征向量;
通用语句转换单元,用于根据所述转换词典及所述神经网络对预置的通用文本集合中的每一通用语句进行转换得到对应的第二语句表征向量;其中所述通用文本集合包含的通用语句的数量大于所述特征文本集合包含的特征语句的数量;
语句权重向量获取单元,用于将所述第一语句表征向量及所述第二语句表征向量分别输入预置的多头自注意力网络以计算得到对应的第一语句权重向量及第二语句权重向量;
向量距离值计算单元,用于对每一所述通用语句对应第一语句权重向量与每一所述特征语句对应第二语句权重向量进行交叉计算,得到每一所述通用语句与每一所述特征语句之间的向量距离值;
通用语句集合获取单元,用于获取与每一所述特征语句之间的向量距离值满足预置的筛选条件的多个通用语句后组合得到通用语句集合;
去重处理单元,用于对所述通用语句集合包含的通用语句进行去重处理得到目标语句集合。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于自然语言处理的语句筛选方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于自然语言处理的语句筛选方法。
本发明实施例提供了一种基于自然语言处理的语句筛选方法、装置、计算机可读存储介质。将特征文本集合的特征语句转换为第一语句特征向量并将每一通用语句转换为对应的第二语句特征向量,分别计算得到第一语句权重向量及第二语句权重向量后进行交叉计算,得到每一通用语句与每一特征语句之间的向量距离值,根据向量距离值获取通用文本集合中的多个通用语句组合形成通用语句组合,进行去重处理得到目标语句集合。通过上述方法,采用多头自注意力网络获取得到语句权重向量,并基于交叉计算得到的向量距离值筛选得到目标语句集合,可快速准确筛地选得到与特征文本集合相匹配的目标语句集合,并确保了目标语句集合中语料的均衡性,也即是提高了筛选得到的目标语句集合的质量。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于自然语言处理的语句筛选方法的流程示意图;
图2为本发明实施例提供的基于自然语言处理的语句筛选方法的子流程示意图;
图3为本发明实施例提供的基于自然语言处理的语句筛选方法的另一子流程示意图;
图4为本发明实施例提供的基于自然语言处理的语句筛选方法的另一子流程示意图;
图5为本发明实施例提供的基于自然语言处理的语句筛选方法的另一子流程示意图;
图6为本发明实施例提供的基于自然语言处理的语句筛选方法的另一子流程示意图;
图7为本发明实施例提供的基于自然语言处理的语句筛选装置的示意性框图;
图8为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的基于自然语言处理的语句筛选方法的流程示意图;该基于自然语言处理的语句筛选方法应用于用户终端中,该基于自然语言处理的语句筛选方法通过安装于用户终端中的应用软件进行执行,用户终端即是基于自然语言处理以对文本进行筛选的终端设备,例如台式电脑、笔记本电脑、平板电脑或手机等。如图1所示,该方法包括步骤S110~S160。
S110、若接收到用户输入的特征文本集合,根据预置的转换词典及预存的神经网络对所述特征文本集中的每一特征语句进行转换得到对应的第一语句表征向量。
若接收到用户输入的特征文本集合,根据预置的转换词典及预存的神经网络对所述特征文本集中的每一特征语句进行转换得到对应的第一语句表征向量。用户即为用户终端的使用者,用户可将与某一个特定领域或某一个特定应用场景所对应的特征文本集合输入用户终端,特征文本集合中包含多个特征语句,可采集某一特定领域或某一个特定应用场景的多条特征语句组合得到特征文本集合,例如,可获取客户进行人身险业务咨询这一应用场景的多条特征语句组合得到特征文本集合。用户终端中预先配置有转换词典及神经网络,可根据转换词典及神经网络将每一特征语句对应转换为第一语句表征向量,其中,转换词典即是对文本中字符进行转换的词典,每一字符均可在转换词典中匹配到对应的一个特征编码;神经网络可以是基于BERT(Bidirectional Encoder Representations fromTransformers)网络进行初始训练所得到的自然语音处理神经网络,可采用通用语料对BERT网络进行初始训练得到上述神经网络。
在一实施例中,如图2所示,步骤S110包括子步骤S111和S112。
S111、根据所述转换词典对每一所述特征语句进行转换得到第一特征向量。
特征语句均由多个字符组成,每一字符均可在转换词典中匹配到对应的一个特征编码,则可根据转换词典将每一特征语句中所包含的字符进行转换,将每一字符对应的特征编码进行组合得到第一特征向量,所得到的第一特征向量可将对应的一个特征语句的特征采用向量方式进行表示,第一特征向量的大小为(1,S),其表示第一特征向量为1行S列,第一特征向量的长度S可由用户预先设定,如可设定第一特征向量中特征编码的数量为32,也即是S=32,则每一特征语句对应转换得到多个特征编码填充对应的一个第一特征向量,该第一特征向量中未被填充的特征编码均记为“0”,若每一特征语句中字符数量超过30,则仅截取其中前30个字符对应转换得到第一特征向量。
例如,“人”在转换词典中对应的特征编码为“1453”;“身”对应的特征编码为“7165”,“险”对应的特征编码为“3351”,“有”对应的特征编码为“6146”,“哪”对应的特征编码为“3675”,“几”对应的特征编码为“4287”,“款”对应的特征编码为“5349”。“101”代表句子的开始特征编码,“102”代表句子的结束特征编码。则“人身险有那几款”的对应组合得到第一特征向量可表示为[101,1453,7165,3351,6146,3675,4287,5349,102,0,……,0]。
S112、将每一所述特征语句对应的第一特征向量输入所述神经网络进行计算得到对应的第一语句表征向量。
将一个所述第一特征向量输入神经网络进行计算即可得到对应的一个第一语句表征向量。神经网络由一个输入层、多个中间层及一个输出层组成,输入层与中间层之间、中间层与其他中间层之间、中间层与输出层之间均通过关联公式进行连接,例如某一关联公式可表示为y=a×x+b,a和b即为该关联公式中的参数值,x为该关联公式的输入值,y为该关联公式的输出值。输入层中包含的输入节点的数量与第一特征向量的长度S相等,则第一特征向量中每一特征编码均与一个输入节点相对应,将一个第一特征向量输入BERT网络进行计算,即可从其输出层获取输出结果,输出结果采用一个向量进行表示,与第一特征向量对应的输出结果为第一语句表征向量,则第一语句表征向量的大小为(T,S),则第一语句表征向量即为T行S列的一个向量矩阵,其中T为大于1的整数,第一语句表征向量中每一向量值均属于[0,1]这一取值范围。
S120、根据所述转换词典及所述神经网络对预置的通用文本集合中的每一通用语句进行转换得到对应的第二语句表征向量。
根据所述转换词典及所述神经网络对预置的通用文本集合中的每一通用语句进行转换得到对应的第二语句表征向量;其中所述通用文本集合包含的通用语句的数量大于所述特征文本集合包含的特征语句的数量,具体的,通用文本集合中包含大量通用语句,通用文本集合汇总包含的通用语句的数量远大于特征文本集合中包含的特征语句的数量,如通用语句的数量可以是特征语句数量的几十倍至几百倍,通用文本集合中的通用语句为不限定应用场景及领域的语句,例如,可在论坛、贴吧等网站中随机爬取语句作为通用语句添加至通用文本集合中。
在一实施例中,如图3所示,步骤S120包括子步骤S121和S122。
S121、根据所述转换词典对每一所述通用语句进行转换得到第二特征向量。S122、将每一所述通用语句对应的第二特征向量输入所述神经网络进行计算得到对应的第二语句表征向量。
获取第二语句表征向量的具体方法与获取第一语句表征向量的具体方法相同,则获取到的第二语句表征向量的大小也为(T,S),其中每一向量值均属于[0,1]这一取值范围。
S130、将所述第一语句表征向量及所述第二语句表征向量分别输入预置的多头自注意力网络以计算得到对应的第一语句权重向量及第二语句权重向量。
将所述第一语句表征向量及所述第二语句表征向量分别输入预置的多头自注意力网络以计算得到对应的第一语句权重向量及第二语句权重向量,多头自注意力(Multi-Head Self-Attention)网络将输入的语句表征向量表示为一组键值对(K,V)以及查询Q,则K、V及Q分别代表三个元素,如可将语句表征向量中的第一行的行向量作为元素Q,将其中第二行的行向量作为元素K,将该语句表征向量中其他行的行向量组合作为元素V,则K和Q的维度数相等。
在一实施例中,如图4所示,步骤S130包括子步骤S131、S132、S133和S134。
S131、将每一所述特征语句的第一语句表征向量输入所述多头自注意力网络进行计算,得到与每一所述第一特征语句对应的一个第一多头向量矩阵。
具体的,多头自注意力网络中的多头即多个自注意力方向,自注意力方向的数量可由用户预先设定,多头自注意力网络的计算方式可采用以下公式进行表示:
Figure BDA0003044153890000071
headi=Attention(QWi Q,KWi K,KWi V) (2);
将(1)式与(2)式进行结合即可计算得到第一多头向量矩阵,其中dK即为Q和K的维度数,KT为对K进行向量转制得到,WQ、WK、WV分别为Q、K及V对应的权值矩阵,i为多头自注意力网络包含的自注意力方向的数量,headi即为第i个自注意力方向的计算结果。
例如,第一语句权重向量的大小为(4,32),则输入多头自注意力网络中的元素V的维度数为64,与V对应的权值矩阵WV的维度数也为64,多头自注意力网络包含的自注意力方向的数量为8,则获取8个自注意力方向的权值矩阵WV组合为对应的第一多头向量矩阵,第一多头向量矩阵的维度数为8×64,第一多头向量矩阵中的每一向量值均属于[0,1]这一取值范围。一个自注意力方向对应一个特征维度,通过多个自注意力方向同时对语句在多个特征维度进行量化表征,从而实现更准确、更全面地对语句的特征进行量化表征的目的。
S132、对每一所述第一多头向量矩阵包含的多头向量值进行平均计算得到对应的第一语句权重向量。
对每一第一多头向量矩阵包含的多头向量值进行平均计算,也即是计算多个自注意力方向的向量值得到每一维度在多个自注意力方向上的平均向量值,将每一维度的平均向量值组合为对应的第一语句权重向量。则每一多头向量矩阵经过计算后均可得到对应的一个第一语句权重向量。
例如,多头自注意力网络包含的自注意力方向的数量为8,第一多头向量矩阵的维度数为8×64,则对应计算64个维度分别在8个自注意力方向上的平均向量值,将计算得到的1×64维向量作为对应的第一语句权重向量,则第一语句权重向量中的每一向量值均属于[0,1]这一取值范围。
S133、将每一所述通用语句的第二语句表征向量输入所述多头自注意力网络进行计算,得到与每一所述第二特征语句对应的一个第二多头向量矩阵。S134、对每一所述第二多头向量矩阵包含的多头向量值进行平均计算得到对应的第二语句权重向量。
获取第二语句权重向量的具体方法与获取第一语句权重向量的具体方法相同,则获取到的第二语句权重向量的大小与获取到的第一语句权重向量的大小相等,且其中每一向量值均属于[0,1]这一取值范围。
S140、对每一所述通用语句对应第一语句权重向量与每一所述特征语句对应第二语句权重向量进行交叉计算,得到每一所述通用语句与每一所述特征语句之间的向量距离值。
对每一所述通用语句对应第一语句权重向量与每一所述特征语句对应第二语句权重向量进行交叉计算,得到每一所述通用语句与每一所述特征语句之间的向量距离值。具体的,一个通用语句与一个特征语句可进行组合配对,若通用语句的数量为N,特征语句的数量为M,则对所有通用语句与特征语句进行交叉配对可形成N×M种配对组合,计算每一种配对组合包含的两个语句权重向量的向量距离值,即可得到每一通用语句与每一特征语句之间的向量距离值。
在一实施例中,如图5所示,步骤S140包括子步骤S141和S142。
S141、对每一所述第一语句权重向量分别与每一所述第二语句权重向量进行交叉组合得到多个权重向量对。
获取每一个第一语句权重向量与任意一个第二语句权重向量进行交叉组合,即可得到对应多个权重向量对,若通用语句的数量为N,特征语句的数量为M,则通过N×M种配对组合即可得到N×M个权重向量对。
S142、根据预置的向量距离计算公式对每一所述权重向量对进行计算得到每一所述通用语句与每一所述特征语句之间的向量距离值。
可通过向量距离计算公式对每一权重向量包含的两个语句权重向量进行计算得到与每一权重向量对所对应的向量距离值,具体的,向量距离计算公式可采用以下公式进行表示:
Figure BDA0003044153890000091
其实,F即为第一语句权重向量或第二语句权重向量的维度数,d1为权重向量对中的第一语句权重向量,d2为其中的第二语句权重向量,d1j为第一语句权重向量中第j维度的向量值,d2j为第二语句权重向量中第j维度的向量值。
S150、获取与每一所述特征语句之间的向量距离值满足预置的筛选条件的多个通用语句后组合得到通用语句集合。
获取与每一所述特征语句之间的向量距离值满足预置的筛选条件的多个通用语句后组合得到通用语句集合。可根据预置的筛选条件及所计算得到的向量距离值对通用语句进行筛选,以从其中筛选出满足筛选条件的多个通用语句组合为通用语句集合。则通用语句集合中所包含的通用语句可作为与特征文本集合的领域相匹配的训练语料进行使用,实现了快速获取到高质量的训练文本语料的效果,也即是可使用通用语句集合作为特定领域的训练语料对语言处理模型进行训练,以提高对模型进行训练的效率及准确性。
在一实施例中,所述筛选条件为向量距离阈值,获取通用语句集合的具体方法可以是获取与每一所述特征语句之间的向量距离值不大于所述向量距离阈值的多个通用语句后组合得到所述通用语句集合。
在本实施例中,可获取与每一特征语句之间的向量距离值不大于向量距离阈值的多个通用语句,以组合得到通用语句集合。
例如,若设置向量距离阈值为600,则可将与每一特征语句之间的向量距离值不大于600的多个通用语句组合为通用语句集合。
在一实施例中,所述筛选条件为筛选数量,如图6所示,步骤S150包括子步骤S151和S152。
S151、根据所述向量距离值由小到大对与每一所述特征语句对应的多个通用语句进行排序,得到每一所述特征语句对应的一个通用语句排序结果。S152、获取与每一所述特征语句对应的一个通用语句排序结果中排序靠前且数量等于所述筛选数量的多个通用语句后组合得到所述通用语句集合。
在另一种实施方式中,由于上述步骤中已计算得到每一特征语句均与任意一个通用语句之间的向量距离值,因此可先根据向量距离值对与每一所述特征语句对应的所有通用语句进行排序,则每一特征语句均对应一个通用语句排序结果,之后获取每一特征语句的通用语句排序结果中排序靠前且数量等于筛选数量的多个通用语句组合为通用语句集合。
例如,若设置筛选数量为30,则可获取每一特征语句的排序结果中排序靠前的30个通用语句作为通用语句集合,则此时通用语句集合中包含的通用语句的数量为特征语句数量的30倍。
由于经过上述筛选过程后,每一条特征语句均能够筛选得到对应的多个通用语句,避免了通用语句集合与某一条特征语句相匹配的通用语句数量过多的现象,也即是避免了通用语句集合中包含的通用语句偏向于某一特定方向,因此确保了通用语句集合中通用语句的均衡性,从而提高了获取到的训练文本语料的质量。
S160、对所述通用语句集合包含的通用语句进行去重处理得到目标语句集合。
对所述通用语句集合包含的通用语句进行去重处理得到目标语句集合。上述步骤获取到的通用语句集合中可能存在重复的通用语句,因此可对所得到的通用语句集合中包含的通用语句进行去重处理,得到目标语句集合,则目标语句集合中包含每一条通用语句均是唯一的,通过上述去重处理,可进一步提高所得到的目标语句集合中通用语句的均衡性,以得到的更高质量的训练文本语料。
本申请中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等包含基于自然语言处理以对文本进行筛选的应用场景中,从而推动智慧城市的建设。
在本发明实施例所提供的基于自然语言处理的语句筛选方法中,将特征文本集合的特征语句转换为第一语句特征向量并将每一通用语句转换为对应的第二语句特征向量,分别计算得到第一语句权重向量及第二语句权重向量后进行交叉计算,得到每一通用语句与每一特征语句之间的向量距离值,根据向量距离值获取通用文本集合中的多个通用语句组合形成通用语句组合,进行去重处理得到目标语句集合。通过上述方法,采用多头自注意力网络获取得到语句权重向量,并基于交叉计算得到的向量距离值筛选得到目标语句集合,可快速准确筛地选得到与特征文本集合相匹配的目标语句集合,并确保了目标语句集合中语料的均衡性,也即是提高了筛选得到的目标语句集合的质量。
本发明实施例还提供一种基于自然语言处理的语句筛选装置,该基于自然语言处理的语句筛选装置可配置于用户终端中,该基于自然语言处理的语句筛选装置用于执行前述的基于自然语言处理的语句筛选方法的任一实施例。具体地,请参阅图7,图7为本发明实施例提供的基于自然语言处理的语句筛选装置的示意性框图。
如图7所示,基于自然语言处理的语句筛选装置100包括特征语句转换单元110、通用语句转换单元120、语句权重向量获取单元130、向量距离值计算单元140、通用语句集合获取单元150和去重处理单元160。
特征语句转换单元110,用于若接收到用户输入的特征文本集合,根据预置的转换词典及预存的神经网络对所述特征文本集中的每一特征语句进行转换得到对应的第一语句表征向量。
在一实施例中,所述特征语句转换单元110包括子单元:第一特征向量获取单元,用于根据所述转换词典对每一所述特征语句进行转换得到第一特征向量;第一语句表征向量获取单元,用于将每一所述特征语句对应的第一特征向量输入所述神经网络进行计算得到对应的第一语句表征向量。
通用语句转换单元120,用于根据所述转换词典及所述神经网络对预置的通用文本集合中的每一通用语句进行转换得到对应的第二语句表征向量;其中所述通用文本集合包含的通用语句的数量大于所述特征文本集合包含的特征语句的数量。
在一实施例中,所述通用语句转换单元120包括子单元:第二特征向量获取单元,用于根据所述转换词典对每一所述通用语句进行转换得到第二特征向量;第二语句表征向量获取单元,用于将每一所述通用语句对应的第二特征向量输入所述神经网络进行计算得到对应的第二语句表征向量。
语句权重向量获取单元130,用于将所述第一语句表征向量及所述第二语句表征向量分别输入预置的多头自注意力网络以计算得到对应的第一语句权重向量及第二语句权重向量。
在一实施例中,所述语句权重向量获取单元130包括子单元:第一多头向量矩阵获取单元,用于将每一所述特征语句的第一语句表征向量输入所述多头自注意力网络进行计算,得到与每一所述第一特征语句对应的一个第一多头向量矩阵;第一语句权重向量获取单元,用于对每一所述第一多头向量矩阵包含的多头向量值进行平均计算得到对应的第一语句权重向量;第二多头向量矩阵获取单元,用于将每一所述通用语句的第二语句表征向量输入所述多头自注意力网络进行计算,得到与每一所述第二特征语句对应的一个第二多头向量矩阵;第二语句权重向量获取单元,用于对每一所述第二多头向量矩阵包含的多头向量值进行平均计算得到对应的第二语句权重向量。
向量距离值计算单元140,用于对每一所述通用语句对应第一语句权重向量与每一所述特征语句对应第二语句权重向量进行交叉计算,得到每一所述通用语句与每一所述特征语句之间的向量距离值。
在一实施例中,所述向量距离值计算单元140包括子单元:交叉组合单元,用于对每一所述第一语句权重向量分别与每一所述第二语句权重向量进行交叉组合得到多个权重向量对;距离值计算单元,用于根据预置的向量距离计算公式对每一所述权重向量对进行计算得到每一所述通用语句与每一所述特征语句之间的向量距离值。
通用语句集合获取单元150,用于获取与每一所述特征语句之间的向量距离值满足预置的筛选条件的多个通用语句后组合得到通用语句集合。
在一实施例中,所述筛选条件为向量距离阈值,所述通用语句集合获取单元150还用于:获取与每一所述特征语句之间的向量距离值不大于所述向量距离阈值的多个通用语句后组合得到所述通用语句集合。
在一实施例中,所述筛选条件为筛选数量,所述通用语句集合获取单元150包括子单元:排序单元,用于根据所述向量距离值由小到大对与每一所述特征语句对应的多个通用语句进行排序,得到每一所述特征语句对应的一个通用语句排序结果;筛选单元,用于获取与每一所述特征语句对应的一个通用语句排序结果中排序靠前且数量等于所述筛选数量的多个通用语句后组合得到所述通用语句集合。
去重处理单元160,用于对所述通用语句集合包含的通用语句进行去重处理得到目标语句集合。
在本发明实施例所提供的基于自然语言处理的语句筛选装置应用上述基于自然语言处理的语句筛选方法,将特征文本集合的特征语句转换为第一语句特征向量并将每一通用语句转换为对应的第二语句特征向量,分别计算得到第一语句权重向量及第二语句权重向量后进行交叉计算,得到每一通用语句与每一特征语句之间的向量距离值,根据向量距离值获取通用文本集合中的多个通用语句组合形成通用语句组合,进行去重处理得到目标语句集合。通过上述方法,采用多头自注意力网络获取得到语句权重向量,并基于交叉计算得到的向量距离值筛选得到目标语句集合,可快速准确筛地选得到与特征文本集合相匹配的目标语句集合,并确保了目标语句集合中语料的均衡性,也即是提高了筛选得到的目标语句集合的质量。
上述基于自然语言处理的语句筛选装置可以实现为计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行基于自然语言处理的语句筛选方法以对文本进行筛选的用户终端。
参阅图8,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于自然语言处理的语句筛选方法,其中,存储介质503可以为易失性的存储介质或非易失性的存储介质。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于自然语言处理的语句筛选方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图8中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现上述的基于自然语言处理的语句筛选方法中对应的功能。
本领域技术人员可以理解,图8中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图8所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现上述的基于自然语言处理的语句筛选方法中所包含的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于自然语言处理的语句筛选方法,其特征在于,所述方法包括:
若接收到用户输入的特征文本集合,根据预置的转换词典及预存的神经网络对所述特征文本集中的每一特征语句进行转换得到对应的第一语句表征向量;
根据所述转换词典及所述神经网络对预置的通用文本集合中的每一通用语句进行转换得到对应的第二语句表征向量;其中所述通用文本集合包含的通用语句的数量大于所述特征文本集合包含的特征语句的数量;
将所述第一语句表征向量及所述第二语句表征向量分别输入预置的多头自注意力网络以计算得到对应的第一语句权重向量及第二语句权重向量;
对每一所述通用语句对应第一语句权重向量与每一所述特征语句对应第二语句权重向量进行交叉计算,得到每一所述通用语句与每一所述特征语句之间的向量距离值;
获取与每一所述特征语句之间的向量距离值满足预置的筛选条件的多个通用语句后组合得到通用语句集合;
对所述通用语句集合包含的通用语句进行去重处理得到目标语句集合。
2.根据权利要求1所述的基于自然语言处理的语句筛选方法,其特征在于,所述根据预置的转换词典及预存的神经网络对所述特征文本集中的每一特征语句进行转换得到对应的第一语句表征向量,包括:
根据所述转换词典对每一所述特征语句进行转换得到第一特征向量;
将每一所述特征语句对应的第一特征向量输入所述神经网络进行计算得到对应的第一语句表征向量。
3.根据权利要求1所述的基于自然语言处理的语句筛选方法,其特征在于,所述根据所述转换词典及所述神经网络对预置的通用文本集合中的每一通用语句进行转换得到对应的第二语句表征向量,包括:
根据所述转换词典对每一所述通用语句进行转换得到第二特征向量;
将每一所述通用语句对应的第二特征向量输入所述神经网络进行计算得到对应的第二语句表征向量。
4.根据权利要求1所述的基于自然语言处理的语句筛选方法,其特征在于,所述将所述第一语句表征向量及所述第二语句表征向量分别输入预置的多头自注意力网络以计算得到对应的第一语句权重向量及第二语句权重向量,包括:
将每一所述特征语句的第一语句表征向量输入所述多头自注意力网络进行计算,得到与每一所述第一特征语句对应的一个第一多头向量矩阵;
对每一所述第一多头向量矩阵包含的多头向量值进行平均计算得到对应的第一语句权重向量;
将每一所述通用语句的第二语句表征向量输入所述多头自注意力网络进行计算,得到与每一所述第二特征语句对应的一个第二多头向量矩阵;
对每一所述第二多头向量矩阵包含的多头向量值进行平均计算得到对应的第二语句权重向量。
5.根据权利要求1所述的基于自然语言处理的语句筛选方法,其特征在于,所述对每一所述通用语句对应第一语句权重向量与每一所述特征语句对应第二语句权重向量进行交叉计算,得到每一所述通用语句与每一所述特征语句之间的向量距离值,包括:
对每一所述第一语句权重向量分别与每一所述第二语句权重向量进行交叉组合得到多个权重向量对;
根据预置的向量距离计算公式对每一所述权重向量对进行计算得到每一所述通用语句与每一所述特征语句之间的向量距离值。
6.根据权利要求1所述的基于自然语言处理的语句筛选方法,其特征在于,所述筛选条件为向量距离阈值,所述获取与每一所述特征语句之间的向量距离值满足预置的筛选条件的多个通用语句后组合得到通用语句集合,包括:
获取与每一所述特征语句之间的向量距离值不大于所述向量距离阈值的多个通用语句后组合得到所述通用语句集合。
7.根据权利要求1所述的基于自然语言处理的语句筛选方法,其特征在于,所述筛选条件为筛选数量,所述获取与每一所述特征语句之间的向量距离值满足预置的筛选条件的多个通用语句后组合得到通用语句集合,包括:
根据所述向量距离值由小到大对与每一所述特征语句对应的多个通用语句进行排序,得到每一所述特征语句对应的一个通用语句排序结果;
获取与每一所述特征语句对应的一个通用语句排序结果中排序靠前且数量等于所述筛选数量的多个通用语句后组合得到所述通用语句集合。
8.一种基于自然语言处理的语句筛选装置,其特征在于,所述装置包括:
特征语句转换单元,用于若接收到用户输入的特征文本集合,根据预置的转换词典及预存的神经网络对所述特征文本集中的每一特征语句进行转换得到对应的第一语句表征向量;
通用语句转换单元,用于根据所述转换词典及所述神经网络对预置的通用文本集合中的每一通用语句进行转换得到对应的第二语句表征向量;其中所述通用文本集合包含的通用语句的数量大于所述特征文本集合包含的特征语句的数量;
语句权重向量获取单元,用于将所述第一语句表征向量及所述第二语句表征向量分别输入预置的多头自注意力网络以计算得到对应的第一语句权重向量及第二语句权重向量;
向量距离值计算单元,用于对每一所述通用语句对应第一语句权重向量与每一所述特征语句对应第二语句权重向量进行交叉计算,得到每一所述通用语句与每一所述特征语句之间的向量距离值;
通用语句集合获取单元,用于获取与每一所述特征语句之间的向量距离值满足预置的筛选条件的多个通用语句后组合得到通用语句集合;
去重处理单元,用于对所述通用语句集合包含的通用语句进行去重处理得到目标语句集合。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于自然语言处理的语句筛选方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于自然语言处理的语句筛选方法。
CN202110468149.2A 2021-04-28 2021-04-28 基于自然语言处理的语句筛选方法、装置及计算机设备 Active CN113177104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110468149.2A CN113177104B (zh) 2021-04-28 2021-04-28 基于自然语言处理的语句筛选方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110468149.2A CN113177104B (zh) 2021-04-28 2021-04-28 基于自然语言处理的语句筛选方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN113177104A true CN113177104A (zh) 2021-07-27
CN113177104B CN113177104B (zh) 2023-10-03

Family

ID=76925136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110468149.2A Active CN113177104B (zh) 2021-04-28 2021-04-28 基于自然语言处理的语句筛选方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN113177104B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160196258A1 (en) * 2015-01-04 2016-07-07 Huawei Technologies Co., Ltd. Semantic Similarity Evaluation Method, Apparatus, and System
CN110162703A (zh) * 2019-05-13 2019-08-23 腾讯科技(深圳)有限公司 内容推荐方法、训练方法、装置、设备及存储介质
US20200356628A1 (en) * 2019-05-07 2020-11-12 International Business Machines Corporation Attention-based natural language processing
CN111985209A (zh) * 2020-03-31 2020-11-24 北京来也网络科技有限公司 结合rpa和ai的文本语句识别方法、装置、设备及存储介质
CN112256232A (zh) * 2020-10-22 2021-01-22 海信视像科技股份有限公司 显示设备与自然语言生成后处理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160196258A1 (en) * 2015-01-04 2016-07-07 Huawei Technologies Co., Ltd. Semantic Similarity Evaluation Method, Apparatus, and System
US20200356628A1 (en) * 2019-05-07 2020-11-12 International Business Machines Corporation Attention-based natural language processing
CN110162703A (zh) * 2019-05-13 2019-08-23 腾讯科技(深圳)有限公司 内容推荐方法、训练方法、装置、设备及存储介质
WO2020228514A1 (zh) * 2019-05-13 2020-11-19 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及存储介质
CN111985209A (zh) * 2020-03-31 2020-11-24 北京来也网络科技有限公司 结合rpa和ai的文本语句识别方法、装置、设备及存储介质
CN112256232A (zh) * 2020-10-22 2021-01-22 海信视像科技股份有限公司 显示设备与自然语言生成后处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姚亮;洪宇;刘昊;刘乐;姚建民;: "基于翻译模型和语言模型相融合的双语句对选择方法", 中文信息学报, no. 05, pages 149 - 156 *
赵善祥等: "翻译记忆中数据筛选方法的研究", 《计算机系统应用》, vol. 18, no. 4, pages 109 - 113 *

Also Published As

Publication number Publication date
CN113177104B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN107516110B (zh) 一种基于集成卷积编码的医疗问答语义聚类方法
CN112131383B (zh) 特定目标的情感极性分类方法
Chernozhukov et al. hdm: High-dimensional metrics
EP2866421B1 (en) Method and apparatus for identifying a same user in multiple social networks
CN107016438B (zh) 一种基于中医辨证人工神经网络算法模型的系统
CN109739995B (zh) 一种信息处理方法及装置
CN110427486B (zh) 身体病况文本的分类方法、装置及设备
CN110609960B (zh) 学习资源推荐方法、装置、数据处理设备及存储介质
CN112231584A (zh) 基于小样本迁移学习的数据推送方法、装置及计算机设备
CN112163637B (zh) 基于非平衡数据的图像分类模型训练方法、装置
CN112734181A (zh) 业务信息审批方法、装置、计算机设备及存储介质
CN112348417A (zh) 一种基于主成分分析算法的营销价值评估方法及装置
CN112348079A (zh) 数据降维处理方法、装置、计算机设备及存储介质
CN117076688A (zh) 基于领域知识图谱的知识问答方法及其装置、电子设备
CN113239668B (zh) 关键词智能提取方法、装置、计算机设备及存储介质
CN113380360B (zh) 一种基于多模态病历图的相似病历检索方法及系统
CN111046177A (zh) 一种仲裁案件自动预判方法及装置
Cloninger et al. People mover's distance: Class level geometry using fast pairwise data adaptive transportation costs
CN108536666A (zh) 一种短文本信息提取方法和装置
CN113177104A (zh) 基于自然语言处理的语句筛选方法、装置及计算机设备
CN116935057A (zh) 目标评价方法、电子设备和计算机可读存储介质
Shi et al. Boosting sparsity-induced autoencoder: A novel sparse feature ensemble learning for image classification
CN113254788B (zh) 一种基于大数据的推荐方法、系统及可读存储介质
CN115640427A (zh) 一种社交网络中基于人格信息的网络结构隐藏方法、装置
CN112669003B (zh) 基于人工智能的业务辅导方法、装置、计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant