CN111737988B - 一种复述句识别的方法及装置 - Google Patents
一种复述句识别的方法及装置 Download PDFInfo
- Publication number
- CN111737988B CN111737988B CN202010591978.5A CN202010591978A CN111737988B CN 111737988 B CN111737988 B CN 111737988B CN 202010591978 A CN202010591978 A CN 202010591978A CN 111737988 B CN111737988 B CN 111737988B
- Authority
- CN
- China
- Prior art keywords
- sentences
- sentence
- determining
- vector
- complex
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 136
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims description 25
- 230000036651 mood Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 13
- 150000001875 compounds Chemical class 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种复述句识别的方法及装置,该方法包括通过获取待识别的两个句子,在确定两个句子的编辑距离不为0时,提取两个句子的多个特征,得到两个句子的多个特征组成的特征向量,将两个句子的特征向量输入到复述句识别模型中,确定两个句子是否为复述句,复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的。通过提取两个句子的多个特征来得到两个句子的特征向量,然后输入到复述句识别模型中,来确定这两个句子是否为复述句。由于使用两个句子的多个特征作为复述句识别模型的输入,相比现有技术中的仅仅是通过两个句子的向量相似度来确定是否为复述句的方式,大大提高了复述句识别模型的精度,提高了识别准确率。
Description
技术领域
本发明涉及金融科技(Fintech)领域,尤其涉及一种复述句识别的方法及装置。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技转变,但由于金融行业的安全性、实时性要求,也对技术提出的更高的要求。在金融领域的客服服务中,复述句识别是智能语音客服系统中一个重要的问题,正确的识别并理解复述句能够很好的提升用户体验。
在智能语音客服系统中,复述句一般定义为用户的当前输入是否是对智能客服上一句在语义上的正确重复。现有的技术方案一般是通过两个句子的向量相似度来确定是否为复述句。但是,由于识别精度仅依赖于向量相似度,而向量相似度的技术方案简单、单一,因此,这种方法识别结果精度不高,影响用户体验。
综上,目前亟需一种复述句识别的方法,用以解决现有技术中存在复述句识别精度不高的问题。
发明内容
本发明提供了一种复述句识别的方法及装置,可以解决现有技术中存在复述句识别精度不高的问题。
第一方面,本发明提供了一种复述句识别的方法,包括:
获取待识别的两个句子;
在确定所述两个句子的编辑距离不为0时,提取所述两个句子的多个特征,得到所述两个句子的多个特征组成的特征向量;
将所述两个句子的特征向量输入到复述句识别模型中,确定所述两个句子是否为复述句,所述复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的。
上述技术方案中,通过提取两个句子的多个特征来得到两个句子的特征向量,然后输入到复述句识别模型中,来确定这两个句子是否为复述句。由于使用两个句子的多个特征组成的特征向量作为复述句识别模型的输入,可以使得复述句识别模型能够学习的特征更多,从而保证复述句识别模型输出的结果更加精细。而且现有技术中的仅仅是通过两个句子的向量相似度来确定是否为复述句,使用的向量相比本发明中的特征向量中的多个特征,特征简单、单一,进而由向量相似度确定是否为复述句的方式的准确率不高,本发明实施例大大提高了复述句识别模型的精度,提高了识别准确率。
可选的,所述多个特征至少包括以下特征:
两个句子的长度差的绝对值、两个句子向量化后的相似度、两个句子中名词的相似度、两个句子中动词的相似度、两个句子中依存关系的依存值、用户表达的句子的语气特征。
上述技术方案中,通过设置两个句子的多个特征,可以增加模型识别的精度。
可选的,所述提取所述两个句子的多个特征,包括:
确定所述两个句子的长度,得到所述两个句子的长度差的绝对值;
将所述两个句子分别向量化后,确定所述两个句子向量化后的相似度;
将所述两个句子通过词向量模型得到所述两个句子中每个名词的向量,根据所述两个句子中每个名词的向量,确定所述两个句子中名词的相似度;
将所述两个句子通过词向量模型得到所述两个句子中每个动词的向量,根据所述两个句子中每个动词的向量,确定所述两个句子中动词的相似度;
确定所述两个句子中每个词的依存关系,得到每个句子对应的依存关系集合和所述两个句子相同的依存关系集合;根据每个句子对应的依存关系集合中元素的数量和所述两个句子相同的依存关系集合中元素的数量,确定所述两个句子依存关系的依存值;
确定所述两个句子中用户表达的句子的语气,将所述语气向量化处理后得到所述用户表达的句子的语气特征。
上述技术方案中,通过不同的技术手段确定两个句子的每个特征,这些特征都是两个句子的共同特征,相比于现有技术中的两个句子的向量是每个句子的各自的向量,能够提供更多可以供复述句识别模型进行识别的特征,进而可以提高复述句识别模型的精度。
可选的,所述将所述两个句子分别向量化,包括:
将所述两个句子输入到词向量模型,得到所述两个句子中每个词的向量,根据所述两个句子中每个词的向量确定所述两个句子的句向量;或
将所述两个句子输入到预训练模型中,得到所述两个句子的句向量。
可选的,所述将所述两个句子的特征向量输入到复述句识别模型中,确定所述两个句子是否为复述句,包括:
将所述两个句子的特征向量输入到所述复述句识别模型中,得到所述两个句子是否为复述句的预测概率;
确定所述两个句子是否为复述句的预测概率是否大于概率阈值,若是,则确定所述两个句子为复述句,否则确定所述两个句子不是复述句。
上述技术方案中,由于将多个特征组成的特征向量输入到复述句识别模型中,能够为复述句识别模型提供更多可以识别的特征,从而可以提高复述句识别模型的识别准确率。
可选的,所述使用标注好的复述句训练样本对预设的识别模型进行训练得到所述复述句识别模型,包括:
获取标注好的复述句训练样本;
对所述标注好的复述句训练样本中每对句子提取特征,得到所述每对句子的特征向量;
将所述特征向量输入到预设的识别模型中进行训练,得到所述复述句识别模型。
可选的,所述方法还包括:
若确定所述两个句子的编辑距离为0,则确定所述两个句子为复述句。
第二方面,本发明实施例提供一种复述句识别的装置,包括:
获取单元,用于获取待识别的两个句子;
处理单元,用于在确定所述两个句子的编辑距离不为0时,提取所述两个句子的多个特征,得到所述两个句子的多个特征组成的特征向量;将所述两个句子的特征向量输入到复述句识别模型中,确定所述两个句子是否为复述句,所述复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的。
可选的,所述多个特征至少包括以下特征:
两个句子的长度差的绝对值、两个句子向量化后的相似度、两个句子中名词的相似度、两个句子中动词的相似度、两个句子中依存关系的依存值、用户表达的句子的语气特征。
可选的,所述处理单元具体用于:
确定所述两个句子的长度,得到所述两个句子的长度差的绝对值;
将所述两个句子分别向量化后,确定所述两个句子向量化后的相似度;
将所述两个句子通过词向量模型得到所述两个句子中每个名词的向量,根据所述两个句子中每个名词的向量,确定所述两个句子中名词的相似度;
将所述两个句子通过词向量模型得到所述两个句子中每个动词的向量,根据所述两个句子中每个动词的向量,确定所述两个句子中动词的相似度;
确定所述两个句子中每个词的依存关系,得到每个句子对应的依存关系集合和所述两个句子相同的依存关系集合;根据每个句子对应的依存关系集合中元素的数量和所述两个句子相同的依存关系集合中元素的数量,确定所述两个句子依存关系的依存值;
确定所述两个句子中用户表达的句子的语气,将所述语气向量化处理后得到所述用户表达的句子的语气特征。
可选的,所述处理单元具体用于:
将所述两个句子输入到词向量模型,得到所述两个句子中每个词的向量,根据所述两个句子中每个词的向量确定所述两个句子的句向量;或
将所述两个句子输入到预训练模型中,得到所述两个句子的句向量。
可选的,所述处理单元具体用于:
将所述两个句子的特征向量输入到所述复述句识别模型中,得到所述两个句子是否为复述句的预测概率;
确定所述两个句子是否为复述句的预测概率是否大于概率阈值,若是,则确定所述两个句子为复述句,否则确定所述两个句子不是复述句。
可选的,所述处理单元具体用于:
获取标注好的复述句训练样本;
对所述标注好的复述句训练样本中每对句子提取特征,得到所述每对句子的特征向量;
将所述特征向量输入到预设的识别模型中进行训练,得到所述复述句识别模型。
可选的,所述处理单元还用于:
若确定所述两个句子的编辑距离为0,则确定所述两个句子为复述句。
第三方面,本发明提供一种计算设备,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行上述第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行上述第一方面所述的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种系统架构的示意图;
图2为本发明实施例提供的一种复述句识别的方法的流程示意图;
图3为本发明实施例提供的一种复述句识别的装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种系统架构。如图1所示,该系统架构可以为服务器100,包括处理器110、通信接口120和存储器130。
其中,通信接口120用于与客服终端设备进行通信,收发该客服终端设备传输的信息,实现通信。
处理器110是服务器100的控制中心,利用各种接口和线路连接整个服务器100的各个部分,通过运行或执行存储在存储器130内的软件程序/或模块,以及调用存储在存储器130内的数据,执行服务器100的各种功能和处理数据。可选地,处理器110可以包括一个或多个处理单元。
存储器130可用于存储软件程序以及模块,处理器110通过运行存储在存储器130的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据业务处理所创建的数据等。此外,存储器130可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
需要说明的是,上述图1所示的结构仅是一种示例,本发明实施例对此不做限定。
基于上述描述,图2示例性的示出了本发明实施例提供的一种复述句识别的方法的流程,该流程可以由一种复述句识别的装置执行。
如图2所示,该流程具体步骤包括:
步骤201,获取待识别的两个句子。
在本发明实施例中,该待识别的两个句子可以是客服与用户对话的对话数据中的两个句子,比如一句为客服输入的,一句是用户输入的,一般是客服重复用户的句子,或用户重复客服的句子。如句子A=“手动操作还款就行”和句子B=“手动操作还款就行是吧”。
在获取该待识别的两个句子之前,需要先训练复述句识别模型,具体的可以为:首先获取标注好的复述句训练样本,该复述句训练样本中设有正例样本和负例样本。例如A和B两个句子,正例样本的标注是句子B是句子A的复述句,负例样本的标注是句子B不是句子A的复述句。然后根据标注好的复述句训练样本中每对句子提取多个特征,得到每对句子的多个特征组成的特征向量,最后将特征向量输入到预设的识别模型中进行训练,直到模型收敛后,得到复述句识别模型。其中,多个特征至少包括以下特征:两个句子的长度差的绝对值、两个句子向量化后的相似度、两个句子中名词的相似度、两个句子中动词的相似度、两个句子中依存关系的依存值、用户表达的句子的语气特征。需要说明的是,上述特征尽是示例作用,在实际应用过程中不限于上述特征。
举例来说,可以根据下述方式来提取标注好的复述句训练样本中每对句子的多个特征:
1)两个句子的长度差的绝对值S1:
首先分别计算两个句子的长度,然后将两个句子的长度相减,得到两个句子的长度差之后取绝对值。即S1=|L1-L2|,其中L1和L2分别为两个句子的长度。
2)两个句子向量化后的相似度S2:
可以先通过下面两种方式来确定两个句子的各自的句向量:
第一种,首先通过词向量模型Glove等得到句子中每个词的向量,然后通过词向量求平均的方式分别得到两个句子的句向量。
第二种,可以通过Bert等预训练模型分别得到两个句子的句向量,即将两个句子分别输入到Bert等预训练模型中,即可得到两个句子各自的句向量。
3)两个句子中名词的相似度S3:
首先通过词向量模型Glove等得到两个句子中每个名词的向量。然后分别对两个句子中的所有名词的向量求平均,分别得到两个句子中的所有名词的向量,en1为句子A中的所有名词的向量和en2为句子B中的所有名词的向量。最后可以通过余弦相似度得到两个句子中所有名词的相似度。即
4)两个句子中动词的相似度S4:
首先通过词向量模型Glove等得到两个句子中每个动词的向量。然后分别对两个句子中的所有动词的向量求平均,分别得到两个句子中的所有动词的向量,ev1为句子A中的所有动词的向量和ev2为句子B中的所有动词的向量。最后可以通过余弦相似度得到两个句子中所有动词的相似度。即
5)两个句子中依存关系的依存值S5:
首先确定两个句子中每个词的依存关系,得到每个句子对应的依存关系集合。通过对句子进行语义依存关系分析,可以得到句子中各个成分之间的依存关系,该依存关系可以有多种,例如主谓关系、动宾关系、介宾关系、动补关系、并列关系、定中关系、同位关系等多种关系。得到每个句子对应的依存关系集合后,可以将两个集合中相交的部分作为两个句子相同的依存关系集合。然后统计每个依存关系集合中元素的数量,依据每个依存关系集合中元素的数量确定两个句子依存关系的依存值。
假设句子A的依存关系集合为UA,集合中元素个数(依存关系的数量)为nA,句子B的依存关系集合为UB,集合中元素个数为nB,两者相同的依存关系集合为UC,集合中元素个数为nC,先将两者相同的依存关系集合中元素个数与句子A的依存关系集合中的元素个数的比值确定为第一比值R1,将两者相同的依存关系集合中元素个数与句子B的依存关系集合中元素个数的比值确定为第二比值R2。然后将第一比值与第二比值的乘积的两倍除以该第一比值与第二比值的和,得到该两个句子中依存关系的依存值。即其中
6)用户表达句子B时的语气特征S6:
可以对用户表达的句子B中的语气词进行分析,得到用户表达句子B时的语气,该语气可以分为祈使语气、疑问语气、表态语气、确定语气、缓和语气等多种语气,得到这些语气后可以用one-hot向量表示使用了那种语气,假设定义用户表达时有三种语气,如果用户的语气是第一种,则此时语气特征S6=[1,0,0],如果是第二种,则语气特征S6=[0,1,0],依此类推。
通过上述方式提取的每对句子的多个特征之后,就可以将上述多个特征进行组合,得到每对句子多个特征组成的特征向量,即特征向量w=[S1,S2,S3,S4,S5,S6],将特征向量输入到模型中进行训练,直至模型收敛,从而得到复述句识别模型,其中模型根据问题的复杂性可以选择传统机器学习模型,如逻辑斯蒂回归、支持向量机等,或者深度学习模型,如卷积神经网络等。
步骤202,在确定所述两个句子的编辑距离不为0时,提取所述两个句子的多个特征,得到所述两个句子的多个特征组成的特征向量。
当在步骤201中得到两个句子后,可以需要先去掉两个句子中的无意义词,这里可以按照预设规则进行去除,比如去除语气词:“你是说”、“你的意思是”、“对吧”等。然后确定这两个句子的编辑距离,该编辑距离一般可以是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。其中编辑操作的次数越少,两者越接近。
需要说明的是,当两个句子的编辑距离为0时,表明两个句子是相同的句子,直接可以确定这两个句子为复述句。如果两个句子的编辑距离不为0,就需要通过复述句识别模型进行判别,此时,需要先提取该两个句子的特征,得到两个句子的特征向量。
其中,在提取特征时,具体可以为:
通过确定两个句子的长度,得到两个句子的长度差的绝对值。
通过将两个句子分别向量化后,确定两个句子向量化后的相似度。
通过将两个句子通过词向量模型得到两个句子中每个名词的向量,根据两个句子中每个名词的向量,确定两个句子中名词的相似度。
通过将两个句子通过词向量模型得到两个句子中每个动词的向量,根据两个句子中每个动词的向量,确定两个句子中动词的相似度。
通过先确定两个句子中每个词的依存关系,得到每个句子对应的依存关系集合和两个句子相同的依存关系集合。然后在根据每个句子对应的依存关系集合中元素的数量和两个句子相同的依存关系集合中元素的数量,确定两个句子依存关系的依存值。
通过确定两个句子中用户表达的句子的语气,将语气向量化处理后得到用户表达的句子的语气特征。
需要说明的是,上述特征提取的过程已在上述复述句识别模型训练的过程中详细描述,此处不再赘述。
由于将依存句法应用到智能语音客服领域的复述句识别问题中,提高了复述句识别模型的准确率。同时由于用户在用不同的语气表达同样的话术时有可能表达的是截然不同的意思,因此语气也是一个判断是否是复述句的一个重要特征,本发明实施例将语气特征考虑在内,可以进一步提高复述句识别模型的准确率。
当得到两个句子的上述多个特征之后,就可以合并在一起,作为该两个句子的特征向量。
步骤203,将所述两个句子的特征向量输入到复述句识别模型中,确定所述两个句子是否为复述句。
将两个句子的特征向量输入到复述句识别模型中,即可以得到该两个句子是否为复述句。具体的,可以将两个句子的特征向量输入到复述句识别模型中,得到所两个句子是否为复述句的预测概率,然后确定两个句子为复述句的预测概率是否大于概率阈值,若是,则确定两个句子为复述句,否则确定两个句子不是复述句。也就是说,将特征向量输入到复述句识别模型中进行预测,得到预测概率,只有预测概率大于概率阈值时才能确定两个句子是复述句。其中,概率阈值可以依据经验设置。
本发明实施例表明,通过获取待识别的两个句子,在确定两个句子的编辑距离不为0时,提取两个句子的多个特征,得到两个句子的多个特征组成的特征向量,将两个句子的特征向量输入到复述句识别模型中,确定两个句子是否为复述句,复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的。通过提取两个句子的多个特征来得到两个句子的特征向量,然后输入到复述句识别模型中,来确定这两个句子是否为复述句。由于使用两个句子的多个特征作为复述句识别模型的输入,相比现有技术中的仅仅是通过两个句子的向量相似度来确定是否为复述句的方式,大大提高了复述句识别模型的精度,提高了识别准确率。
基于相同的技术构思,图3示例性的示出了本发明实施例提供的一种复述句识别的装置的结构示意图,该装置可以执行复述句识别的流程。
如图3所示,该装置具体包括:
获取单元301,用于获取待识别的两个句子;
处理单元302,用于在确定所述两个句子的编辑距离不为0时,提取所述两个句子的多个特征,得到所述两个句子的多个特征组成的特征向量;将所述两个句子的特征向量输入到复述句识别模型中,确定所述两个句子是否为复述句,所述复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的。
可选的,所述多个特征至少包括以下特征:
两个句子的长度差的绝对值、两个句子向量化后的相似度、两个句子中名词的相似度、两个句子中动词的相似度、两个句子中依存关系的依存值、用户表达的句子的语气特征。
可选的,所述处理单元302具体用于:
确定所述两个句子的长度,得到所述两个句子的长度差的绝对值;
将所述两个句子分别向量化后,确定所述两个句子向量化后的相似度;
将所述两个句子通过词向量模型得到所述两个句子中每个名词的向量,根据所述两个句子中每个名词的向量,确定所述两个句子中名词的相似度;
将所述两个句子通过词向量模型得到所述两个句子中每个动词的向量,根据所述两个句子中每个动词的向量,确定所述两个句子中动词的相似度;
确定所述两个句子中每个词的依存关系,得到每个句子对应的依存关系集合和所述两个句子相同的依存关系集合;根据每个句子对应的依存关系集合中元素的数量和所述两个句子相同的依存关系集合中元素的数量,确定所述两个句子依存关系的依存值;
确定所述两个句子中用户表达的句子的语气,将所述语气向量化处理后得到所述用户表达的句子的语气特征。
可选的,所述处理单元302具体用于:
将所述两个句子输入到词向量模型,得到所述两个句子中每个词的向量,根据所述两个句子中每个词的向量确定所述两个句子的句向量;或
将所述两个句子输入到预训练模型中,得到所述两个句子的句向量。
可选的,所述处理单元302具体用于:
将所述两个句子的特征向量输入到所述复述句识别模型中,得到所述两个句子是否为复述句的预测概率;
确定所述两个句子是否为复述句的预测概率是否大于概率阈值,若是,则确定所述两个句子为复述句,否则确定所述两个句子不是复述句。
可选的,所述处理单元302具体用于:
获取标注好的复述句训练样本;
对所述标注好的复述句训练样本中每对句子提取特征,得到所述每对句子的特征向量;
将所述特征向量输入到预设的识别模型中进行训练,得到所述复述句识别模型。
可选的,所述处理单元302还用于:
若确定所述两个句子的编辑距离为0,则确定所述两个句子为复述句。
基于相同的技术构思,本发明提供一种计算设备,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行上述复述句识别的方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行上述复述句识别的方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种复述句识别的方法,其特征在于,包括:
获取待识别的两个句子;
在确定所述两个句子的编辑距离不为0时,提取所述两个句子的多个特征,得到所述两个句子的多个特征组成的特征向量,所述多个特征至少包括以下特征:两个句子的长度差的绝对值、两个句子向量化后的相似度、两个句子中名词的相似度、两个句子中动词的相似度、两个句子中依存关系的依存值、用户表达的句子的语气特征,所述多个特征是所述两个句子的共同特征,所述特征向量并非是每个句子的各自的向量;
将所述两个句子的特征向量输入到复述句识别模型中,确定所述两个句子是否为复述句,所述复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的;
其中,所述提取所述两个句子的多个特征,包括:
确定所述两个句子中每个词的依存关系,得到每个句子对应的依存关系集合和所述两个句子相同的依存关系集合;根据每个句子对应的依存关系集合中元素的数量和所述两个句子相同的依存关系集合中元素的数量,确定所述两个句子依存关系的依存值;
确定所述两个句子中用户表达的句子的语气,将所述语气向量化处理后得到所述用户表达的句子的语气特征。
2.如权利要求1所述的方法,其特征在于,所述提取所述两个句子的多个特征,还包括:
确定所述两个句子的长度,得到所述两个句子的长度差的绝对值;
将所述两个句子分别向量化后,确定所述两个句子向量化后的相似度;
将所述两个句子通过词向量模型得到所述两个句子中每个名词的向量,根据所述两个句子中每个名词的向量,确定所述两个句子中名词的相似度;
将所述两个句子通过词向量模型得到所述两个句子中每个动词的向量,根据所述两个句子中每个动词的向量,确定所述两个句子中动词的相似度。
3.如权利要求2所述的方法,其特征在于,所述将所述两个句子分别向量化,包括:
将所述两个句子输入到词向量模型,得到所述两个句子中每个词的向量,根据所述两个句子中每个词的向量确定所述两个句子的句向量;或
将所述两个句子输入到预训练模型中,得到所述两个句子的句向量。
4.如权利要求1所述的方法,其特征在于,所述将所述两个句子的特征向量输入到复述句识别模型中,确定所述两个句子是否为复述句,包括:
将所述两个句子的特征向量输入到所述复述句识别模型中,得到所述两个句子是否为复述句的预测概率;
确定所述两个句子是否为复述句的预测概率是否大于概率阈值,若是,则确定所述两个句子为复述句,否则确定所述两个句子不是复述句。
5.如权利要求1至4任一项所述的方法,其特征在于,所述使用标注好的复述句训练样本对预设的识别模型进行训练得到所述复述句识别模型,包括:
获取标注好的复述句训练样本;
对所述标注好的复述句训练样本中每对句子提取特征,得到所述每对句子的特征向量;
将所述每对句子的特征向量输入到预设的识别模型中进行训练,得到所述复述句识别模型。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
若确定所述两个句子的编辑距离为0,则确定所述两个句子为复述句。
7.一种复述句识别的装置,其特征在于,包括:
获取单元,用于获取待识别的两个句子;
处理单元,用于在确定所述两个句子的编辑距离不为0时,提取所述两个句子的多个特征,得到所述两个句子的多个特征组成的特征向量,所述多个特征至少包括以下特征:两个句子的长度差的绝对值、两个句子向量化后的相似度、两个句子中名词的相似度、两个句子中动词的相似度、两个句子中依存关系的依存值、用户表达的句子的语气特征,所述多个特征是所述两个句子的共同特征,所述特征向量并非是每个句子的各自的向量;将所述两个句子的特征向量输入到复述句识别模型中,确定所述两个句子是否为复述句,所述复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的;其中,所述提取所述两个句子的多个特征,包括:确定所述两个句子中每个词的依存关系,得到每个句子对应的依存关系集合和所述两个句子相同的依存关系集合;根据每个句子对应的依存关系集合中元素的数量和所述两个句子相同的依存关系集合中元素的数量,确定所述两个句子依存关系的依存值;确定所述两个句子中用户表达的句子的语气,将所述语气向量化处理后得到所述用户表达的句子的语气特征。
8.一种计算设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行权利要求1至6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010591978.5A CN111737988B (zh) | 2020-06-24 | 2020-06-24 | 一种复述句识别的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010591978.5A CN111737988B (zh) | 2020-06-24 | 2020-06-24 | 一种复述句识别的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737988A CN111737988A (zh) | 2020-10-02 |
CN111737988B true CN111737988B (zh) | 2023-06-06 |
Family
ID=72651131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010591978.5A Active CN111737988B (zh) | 2020-06-24 | 2020-06-24 | 一种复述句识别的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737988B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268441A (zh) * | 2017-01-04 | 2018-07-10 | 科大讯飞股份有限公司 | 句子相似度计算方法和装置及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897263A (zh) * | 2016-12-29 | 2017-06-27 | 北京光年无限科技有限公司 | 基于深度学习的机器人对话交互方法及装置 |
CN108287824A (zh) * | 2018-03-07 | 2018-07-17 | 北京云知声信息技术有限公司 | 语义相似度计算方法及装置 |
CN109190117B (zh) * | 2018-08-10 | 2023-06-23 | 中国船舶重工集团公司第七一九研究所 | 一种基于词向量的短文本语义相似度计算方法 |
CN109101494A (zh) * | 2018-08-10 | 2018-12-28 | 哈尔滨工业大学(威海) | 一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质 |
CN109522561B (zh) * | 2018-11-29 | 2023-06-16 | 苏州大学 | 一种问句复述识别方法、装置、设备及可读存储介质 |
CN110705612A (zh) * | 2019-09-18 | 2020-01-17 | 重庆邮电大学 | 一种混合多特征的句子相似度计算方法、存储介质及系统 |
-
2020
- 2020-06-24 CN CN202010591978.5A patent/CN111737988B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268441A (zh) * | 2017-01-04 | 2018-07-10 | 科大讯飞股份有限公司 | 句子相似度计算方法和装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111737988A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321432B (zh) | 文本事件信息提取方法、电子装置和非易失性存储介质 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN108847241B (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
CN111738018A (zh) | 一种意图理解方法、装置、设备及存储介质 | |
CN111079408A (zh) | 一种语种识别方法、装置、设备及存储介质 | |
CN112036705A (zh) | 一种质检结果数据获取方法、装置及设备 | |
CN111160026B (zh) | 一种模型训练方法、装置、实现文本处理的方法及装置 | |
CN113568969B (zh) | 信息抽取方法、装置、设备以及计算机可读存储介质 | |
CN111738017A (zh) | 一种意图识别方法、装置、设备及存储介质 | |
CN113553847A (zh) | 用于对地址文本进行解析的方法、装置、系统和存储介质 | |
CN113157887B (zh) | 知识问答意图识别方法、装置、及计算机设备 | |
CN113901838A (zh) | 对话检测方法和装置、电子设备、存储介质 | |
CN113780418A (zh) | 一种数据的筛选方法、系统、设备和存储介质 | |
CN112599211A (zh) | 一种医疗实体关系抽取方法及装置 | |
CN112287077A (zh) | 用于文档的结合rpa和ai的语句提取方法、装置、存储介质及电子设备 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN111737988B (zh) | 一种复述句识别的方法及装置 | |
CN111666755B (zh) | 一种复述句识别的方法及装置 | |
CN116070642A (zh) | 一种基于表情嵌入的文本情感分析方法及相关装置 | |
CN115563278A (zh) | 一种句子文本的问题分类处理方法及装置 | |
CN114896973A (zh) | 一种文本处理方法、装置及电子设备 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN114662496A (zh) | 信息识别方法、装置、设备、存储介质及产品 | |
CN113761874A (zh) | 事件事实性预测方法、装置、电子设备与存储介质 | |
CN110188330B (zh) | 确定相似文本信息的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |