CN110543544A - 文本处理方法、存储介质和电子设备 - Google Patents

文本处理方法、存储介质和电子设备 Download PDF

Info

Publication number
CN110543544A
CN110543544A CN201910833850.2A CN201910833850A CN110543544A CN 110543544 A CN110543544 A CN 110543544A CN 201910833850 A CN201910833850 A CN 201910833850A CN 110543544 A CN110543544 A CN 110543544A
Authority
CN
China
Prior art keywords
text
candidate
determining
processed
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910833850.2A
Other languages
English (en)
Inventor
祝文博
雷欣
李志飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yushanzhi Information Technology Co Ltd
Original Assignee
Beijing Yushanzhi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yushanzhi Information Technology Co Ltd filed Critical Beijing Yushanzhi Information Technology Co Ltd
Priority to CN201910833850.2A priority Critical patent/CN110543544A/zh
Publication of CN110543544A publication Critical patent/CN110543544A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种文本处理方法、存储介质和电子设备。通过在预定的文本索引系统中根据待处理文本确定第一候选文本集合,根据待处理文本和所述第一候选文本集合中各候选文本的相似度确定第二候选文本集合,根据待处理文本的第一句法模式和第二候选文本集合中各候选文本的第二句法模式对所述第二候选文本集合进行过滤以获取扩充文本集合。由此,可以比较精确地、快速地获取待处理文本的扩充文本。

Description

文本处理方法、存储介质和电子设备
技术领域
本发明涉及文本处理技术领域,具体涉及一种文本处理方法、存储介质和电子设备。
背景技术
文本扩充是从海量的文本中找出与给定文本语义相似的文本。例如,“今天天儿不错”的一个扩充文本可以是“今天天气很好”,这种1:N的扩充方法能够快速积累大量的相似文本。例如,在对话系统中,可以通过文本扩充在较短的时间内获取大量的用户问题。
现有技术的文本扩充方法主要是通过人工书写。但是这种方法得到的扩充文本往往不全面,同时需要消耗大量的时间和精力。因此,需要一种能够自动进行文本扩充的文本处理方法。
发明内容
有鉴于此,本发明实施例提供了一种文本处理方法、存储介质和电子设备,可以比较精确地、快速地获取待处理文本的扩充文本。
第一方面,本发明实施例提供一种文本处理方法,用于获取输入文本的扩充文本,所述方法包括:
获取待处理文本;
根据所述待处理文本在预定的文本索引系统中确定第一候选文本集合,所述第一候选文本集合包括多个候选文本;
根据所述待处理文本和所述第一候选文本集合中各候选文本的相似度确定第二候选文本集合;
确定所述待处理文本的第一句法模式;
分别确定所述第二候选文本集合中各候选文本的第二句法模式;
根据所述第一句法模式和第二句法模式对所述第二候选文本集合进行过滤以获取扩充文本集合。
优选地,根据所述待处理文本和所述第一候选文本集合中各候选文本的相似度确定第二候选文本集合包括:
确定所述待处理文本的第一文本向量;
确定所述第一候选文本集合中各候选文本的第二文本向量;
分别确定所述第一文本向量和各第二文本向量的第一相似度;
根据所述第一相似度和第一阈值确定所述第二候选文本集合。
优选地,根据所述第一相似度和第一阈值确定所述第二候选文本集合为将所述第一相似度大于第一阈值的候选文本加入所述第二候选文本集合。
优选地,根据所述第一相似度和第一阈值确定所述第二候选文本集合包括:
获取所述待处理文本和所述第一候选文本集合中各候选文本的逆序文本;
确定所述待处理文本的逆序文本的第三文本向量;
确定所述第一候选文本集合中各候选文本的逆序文本的第四文本向量;
分别确定所述第三文本向量和各第四文本向量的第二相似度;
将所述第一相似度大于第一阈值且所述第二相似度大于第二阈值的候选文本加入所述第二候选文本集合。
优选地,根据所述第一句法模式和第二句法模式对所述第二候选文本集合进行过滤以获取扩充文本集合包括:
根据所述第一句法模式和所述第二句法模式的状中关系、主谓关系、定中关系和动宾关系的一致性对所述第二候选文本集合进行过滤确定中间集合;
根据所述第一句法模式和所述第二句法模式的最长公共子串占比所述中间集合进行过滤以获取所述扩充文本集合。
优选地,根据最长公共子串占比对所述中间集合进行过滤以获取所述扩充文本集合包括:
确定所述第一句法模式和所述第二句法模式的最长公共子串,所述最长公共子串为所述第一句法模式和所述第二句法模式中相同词语的序列;
分别获取所述待处理文本和所述中间集合中各候选文本的平均长度;
根据所述最长公共子串的长度和所述平均长度计算获取最长公共子串占比;以及
将所述最长公共子串占比大于第三阈值的候选文本加入所述扩充文本集合。
优选地,所述最长公共子串占比为所述最长公共子串的长度和所述平均长度的比值。
优选地,所述第一句法模式和所述第二句法模式为句法依存树。
第二方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
第三方面,本发明实施例提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
本发明实施例的技术方案通过在预定的文本索引系统中根据待处理文本确定第一候选文本集合,根据待处理文本和所述第一候选文本集合中各候选文本的相似度确定第二候选文本集合,根据待处理文本的第一句法模式和第二候选文本集合中各候选文本的第二句法模式对所述第二候选文本集合进行过滤以获取扩充文本集合。由此,可以比较精确地、快速地获取待处理文本的扩充文本。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例的文本处理系统的结构示意图;
图2是本发明实施例的文本处理方法的流程图;
图3是本发明实施例的确定第二候选文本集合的流程图;
图4是本发明实施例的确定第二候选文本集合的流程图;
图5是本发明实施例的获取扩充文本集合的流程图;
图6是本发明实施例的依存关系的示意图;
图7是本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1是本发明实施例的文本处理系统的结构示意图。如图1所示,本发明实施例的文本处理系统包括客户端1和服务器2。其中,客户端1用于获取待处理文本,并将所述待处理文本发送至服务器2。服务器2用于自动获取所述待处理文本的扩充文本。
在本实施例中,所述客户端1可以是智能手机、平板电脑、笔记本电脑或台式电脑等,也可以是设置有专用软件程序的其它设备。用户可以通过键盘等设备输入待处理文本。
在本实施例中,所述客户端1和服务器2之间可以通过本地网关或英特网进行通信。
应理解,本发明实施例的文本处理方法不仅能通过上述服务器实现,也可以通过其它电子设备来实现,例如智能手机、平板电脑、笔记本电脑或台式电脑等电子设备,通过这些电子设备的处理器实现文本处理方法。
图2是本发明实施例的文本处理方法的流程图。如图2所示,本发明实施例的文本处理方法包括如下步骤:
步骤S210、获取待处理文本。
在本实施例中,用户通过客户端输入待处理文本,所述待处理文本为需要获取扩充文本的输入文本。
步骤S220、根据所述待处理文本在预定的文本索引系统中确定第一候选文本集合。
在本实施例中,所述第一候选文本集合包括多个候选文本。
在本实施例中,通过网络爬虫(web crawler)爬取海量的文本数据,所述文本数据来源可以是百度贴吧、微博、豆瓣等。具体地,网络爬虫又被称为网页蜘蛛、网络机器人、网页追逐者,是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。由此,可以获取大量的文本数据。
在本实施例中,预定的索引系统可以是开源的Elasticsearch索引系统,将上述获取的大量文本数据的存入该索引系统。具体地,ElasticSearch是一个分布式多用户能力的全文搜索引擎,具有实时搜索、稳定可靠、快速、安装使用方便等特点。
进一步地,将待处理文本输入到所述文本索引系统,可以得到第一候选文本集合,所述第一候选文本集合中包括多个候选文本,这些候选文本与待处理文本存在一定的相似性,但是相似度比较低,需要进一步过滤。
步骤S230、根据所述待处理文本和所述第一候选文本集合中各候选文本的相似度确定第二候选文本集合。
在本实施例中,通过待处理文本与第一候选文本集合中的各候选文本的相似度对所述第一候选文本进行过滤以获取第二候选文本。
在一个可选的实现方式中,图3是本发明实施例的确定第二候选文本集合的流程图。如图3所述,根据所述待处理文本和所述第一候选文本集合中各候选文本的相似度确定第二候选文本集合包括如下步骤:
步骤S310、确定所述待处理文本的第一文本向量。
在本实施例中,通过预定的文本表示方法将所述待处理文本表示为第一文本向量。
进一步地,预定的文本表示方法可以是现有的各种文本表示方法,例如TF-IDF(term frequency–inverse document frequency,逆文本频率指数)算法、CBOW(Continuous Bag-Of-Words,连续词袋)算法、Skip-gram(Continuous Skip-gram,连续跳跃)算法、ELMo(Embedding from Language Models,语言模型嵌入算法)和GloVe(Globalvectors for word representation,词表征的全局向量)算法等。
进一步地,TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。将所有文本中的词作为坐标,对应词的词频作为在该坐标上的值,即可将文本按词频转换成词向量。
进一步地,CBOW模型是通过目标词的上下文的词预测目标词。具体的做法是,设定词向量的维度d,对所有的词随机初始化为一个d维的向量,然后要对上下文所有的词向量编码得到一个隐藏层的向量,通过这个隐藏层的向量预测目标词。例如,词汇表中一个有V个不同的词,就是隐藏层d维的向量乘以一个W矩阵转化为一个V维的向量,然后做一个分类器进行分类。
进一步地,Skip-gram模型与CBOW模型的原理相似,它的输入是目标词,先是将目标词映射为一个隐藏层向量,根据这个向量预测目标词上下文两个词。
进一步地,EMLo算法模型使用的是一个双向的LSTM(长短期记忆网络,LongShort-Term Memory)语言模型,由一个前向和一个后向语言模型构成,目标函数就是取这两个方向语言模型的最大似然。在预训练好这个语言模型之后,ELMo就是根据预定的公式来用作词表示。也即,ELMo利用预训练好的双向语言模型,然后根据具体输入从该语言模型中可以得到上下文依赖的当前词表示(对于不同上下文的同一个词的表示是不一样的)。
进一步地,GloVe模型是一个基于全局词频统计的词表征工具,它可以把一个词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性、类比性等。
优选地,所述词向量的维度为50、100或150。
由此,即可获取待处理文本的第一文本向量。
步骤S320、确定所述第一候选文本集合中各候选文本的第二文本向量。
在本实施例中,基于上述步骤S310列举的文本表示方法获取第一候选文本集合中各候选文本的第二文本向量。
步骤S330、分别确定所述第一文本向量和各第二文本向量的第一相似度。
在本实施例中,确定相似度可以为计算所述第一文本向量和所述第二文本向量的的欧式距离、曼哈顿距离或余弦相似度等。
进一步地,欧式距离又称欧几里得距离或欧几里得度量(EuclideanMetric),以空间为基准的两点之间最短距离。对于k维的第一文本向量Vp(x11,x12,…,x1k)和第二文本向量Vq(x21,x22,…,x2k),其欧式距离的计算公式为:
其中,D1为所述第一文本向量和第二文本向量的欧式距离,x1i为所述第一文本向量的第i个元素,x2i为所述第二文本向量的第i个元素。
进一步地,曼哈顿距离又称马氏距离(Manhattan distance),对于k维的第一文本向量Vp(x11,x12,…,x1k)和第二文本向量Vq(x21,x22,…,x2k),其曼哈顿距离的计算公式为:
其中,D2为所述第一文本向量和第二文本向量的曼哈顿距离,x1i为所述第一文本向量的第i个元素,x2i为所述第二文本向量的第i个元素。
进一步地,余弦距离也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。通过两个向量的夹角的余弦值表征两个向量相似度。对于k维的第一文本向量Vp(x11,x12,…,x1k)和第二文本向量Vq(x21,x22,…,x2k),其余弦距离的计算公式为:
其中,D3为所述第一文本向量和第二向量的曼哈顿距离,x1i为所述第一向量的第i个元素,x2i为所述第二文本向量的第i个元素。
应理解,本发明实施例计算相似度的方法并不限于上述列举的三种方式,其它计算相似度的方法也可适用。
步骤S340、根据所述第一相似度和第一阈值确定所述第二候选文本集合。
在本实施例中,根据所述第一相似度和第一阈值确定所述第二候选文本集合。
可选地,所述第一阈值为0.8。
进一步地,根据所述第一相似度和第一阈值确定所述第二候选文本集合为将所述第一相似度大于第一阈值的候选文本加入所述第二候选文本集合。
在另一个可选的实现方式中,图4是本发明实施例的确定第二候选文本集合的流程图。如图4所述,根据所述待处理文本和所述第一候选文本集合中各候选文本的相似度确定第二候选文本集合包括如下步骤:
步骤S410、获取所述待处理文本和所述第一候选文本集合中各候选文本的逆序文本。
在本实施例中,将所述待处理文本逆序排列以获取所述待处理文本的逆序文本。将各候选文本逆序排列以获取候选文本的逆序文本。
步骤S420、确定所述待处理文本的的逆序文本的第三文本向量。
在本实施例中,通过预定的文本表示方法将所述待处理文本的逆序文本表示为第三文本向量。
步骤S430、确定所述第一候选文本集合中各候选文本的的逆序文本的第四文本向量。
在本实施例中,基于预定的文本表示方法获取第一候选文本集合中各候选文本的逆序文本的第四文本向量。
步骤S440、分别确定所述第三文本向量和各第四文本向量的第二相似度。
在本实施例中,基于预定的文本相似度算法获取所述第三文本向量和各第四文本向量的第二相似度。
步骤S450、根据所述第二相似度和第二阈值确定所述第二候选文本集合。
可选地,所述第二阈值为0.8。
进一步地,根据所述第二相似度和第二阈值确定所述第二候选文本集合为将所述第二相似度大于第二阈值的候选文本加入所述第二候选文本集合。
在又一个可选的实现方式中,为了进一步提高扩充文本的准确度,可以将结合上述两种方式确定所述第二候选文本集合。
具体地,根据上述步骤S310-S330获取第一相似度,根据上步骤S410-S440获取第二相似度,将所述第一相似度大于第一阈值且所述第二相似度大于第二阈值的候选文本加入所述第二候选文本集合。
可选地,所述第一阈值为0.8,所述第二阈值为0.8。
由此,可获取第二候选文本集合。
步骤S240、确定所述待处理文本的第一句法模式。
在本实施例中,通过依存句法确定所述待处理文本的第一句法模式。具体地,依存句法是将句子分析成一棵依存句法树,该依存句法树描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。依存关系包括主谓关系(SBV)、动宾关系(VOB)、前置宾语(FOB)、定中关系(ATT)、介宾关系(POB)、状中关系(ADV)、右附加关系(RAD)、核心关系(HEB)等。
步骤S250、分别确定所述第二候选文本集合中各候选文本的第二句法模式。
在本实施例中,基于与上述同样的方法获取第二候选文本集合中各候选文本的第二句法模式。
步骤S260、根据所述第一句法模式和第二句法模式对所述第二候选文本集合进行过滤以获取扩充文本集合。
进一步地,图5是本发明实施例的获取扩充文本集合的流程图。如图5所示,根据所述第一句法模式和第二句法模式对所述第二候选文本集合进行过滤以获取扩充文本集合包括如下步骤:
步骤S510、根据所述第一句法模式和所述第二句法模式的状中关系、主谓关系、定中关系和动宾关系的一致性对所述第二候选文本集合进行过滤确定中间集合。
具体地,图6是本发明实施例的依存关系的示意图。图6示出了两个句子F1和F2及其依存关系G1和G2的示意图。如图6所示,其中依存关系G1为本实施例的第一句法模式,依存关系G2为本实施例的一个第二句法模式。
在本实施例中,句子F1为“张三吃苹果”。由于依存句法树中有虚根的存在,因此加入虚拟节点Root1,由此,句子F1共有四个节点,分别是“Root1”、“张三”、“吃”、“苹果”。各个节点的依存关系如图中G1所示,其中,“吃”和“Root1”为核心关系,“张三”和“吃”为主谓关系,“苹果”和“吃”为动宾关系。
在本实施例中,句子F2为“张三吃了苹果”。由于依存句法树中有虚根的存在,因此加入虚拟节点Root2,由此,句子F2共有五个节点,分别是“Root2”、“张三”、“吃”、“了”、“苹果”。各个节点的依存关系如图中G2所示,其中,“吃”和“Root2”为核心关系,“张三”和“吃”为主谓关系,“苹果”和“吃”为动宾关系,“了”和“吃”为右附加关系。
在本实施例中,选取状中关系、主谓关系、定中关系和动宾关系对所述第二候选文本集合进行过滤。试验表明,在对话系统中,选取状中关系、主谓关系、定中关系和动宾关系对所述第二候选文本集合进行过滤,使得最终获取的扩充文本的准确率较高。应理解,本发明实施例并不限于上述四种依存关系,可根据应用场景选取其它的依存关系作为过滤条件。
具体地,根据所述第一句法模式和所述第二句法模式的状中关系、主谓关系、定中关系和动宾关系的一致性对所述第二候选文本集合进行过滤确定中间集合包括:
步骤S511、通过状中关系对所述第二候选文本集合进行第一步过滤。
在本实施例中,判断待处理文本和所述第二候选文本集合中各候选文本的状中关系是否相反,将与待处理文本的状中关系相反的候选文本滤除。
以图6中的句子F1和F2为例,在句子F和F2中,都没有状中关系。因此,句子F1和F2的状中关系并不是相反的,因此,句子F2不滤除。
步骤S512、通过主谓关系对所述第二候选文本集合进行第二步过滤。
在本实施例中,判断待处理文本和所述第二候选文本集合中各候选文本是否都具备主谓关系。在待处理文本和候选文本中,如果其中一个文本具备主谓关系,另一个文本不具备主谓关系,则将该候选文本滤除。如果两个文本都具备主谓关系,则不滤除该候选文本。
以图6中的句子F1和F2为例,在句子F1中,“张三”和“吃”为主谓关系;在句子F2中,“张三”和“吃”为主谓关系。因此,句子F1和F2的都具备主谓关系,因此,句子F2不滤除。
步骤S513、通过定中关系对所述第二候选文本集合进行第三步过滤。
在本实施例中,判断待处理文本和所述第二候选文本集合中各候选文本是否都具备定中关系。在待处理文本和候选文本中,如果其中一个文本具备定中关系,另一个文本不具备定中关系,则将该候选文本滤除。如果两个文本都具备定中关系,则不滤除该候选文本。
以图6中的句子F1和F2为例,在句子F1和句子F2中,都不具备定中关系,因此,句子F2不滤除。
步骤S514、通过动宾关系对所述第二候选文本集合进行第四步过滤。
在本实施例中,判断待处理文本和所述第二候选文本集合中各候选文本是否都具备动宾关系。在待处理文本和候选文本中,如果其中一个文本具备动宾关系,另一个文本不具备动宾关系,则将该候选文本滤除。如果两个文本都具备动宾关系,则不滤除该候选文本。
以图6中的句子F1和F2为例,在句子F1和F2中,“苹果”和“吃”为动宾关系。因此,将句子F2不滤除。
由此,可根据第一句法模式和第二句法模式的状中关系、主谓关系、定中关系和动宾关系的一致性对所述第二候选文本集合进行过滤确定中间集合。
步骤S520、根据所述第一句法模式和所述第二句法模式的最长公共子串占比对所述中间集合进行过滤以获取所述扩充文本集合。
具体地,对所述中间集合进行过滤以获取所述扩充文本集合包括如下步骤:
步骤S521、确定所述第一句法模式和所述第二句法模式的最长公共子串。
在本实施例中,所述最长公共子串为所述第一句法模式和所述第二句法模式中相同词语的序列。
具体地,以上述句子F1和F2为例,相同的词语包括:“张三”、“吃”、“了”和“苹果”。因此,最长公共子串为[张三吃苹果]。
步骤S522、分别获取所述待处理文本和所述中间集合中各候选文本的平均长度。
在本实施例中,文本长度为文本中所包含的字的个数。
具体地,平均长度的计算公式为:
其中,L为平均长度,L1为待处理文本的长度,L2为候选文本的长度。
具体地,以上述句子F1和F2为例,句子F1的长度L1=5。句子F2的长度L2=6。根据上述公式计算可得平均长度L=5.5。
步骤S523、根据所述最长公共子串的长度和所述平均长度计算获取最长公共子串占比。
在本实施例中,所述最长公共子串占比为所述最长公共子串的长度和所述平均长度的比值。
具体地,最长公共子串占比的计算公式为:
其中,L为平均长度,L′为最长公共子串的长度,P为最长公共子串占比。
具体地,以上述句子F1和F2为例,最长公共子串的长度为5,平均长度为5.5。根据上述公式计算可得最长公共子串占比约为0.91。
应理解,本发明实施例获取最长公共子串占比的方法并不限于上述列举的方式。也可采用其它方式计算最长公共子串占比,例如,将最长公共子串的长度与两个文本中任意一个文本的长度额比值作为最长公共子串占比。相应地,第三阈值也可做对应的改变。
步骤S524、将所述最长公共子串占比大于第三阈值的候选文本加入所述扩充文本集合。
可选地,所述第三阈值为0.8。
具体地,以上述句子F1和F2为例,最长公共子串占比约为0.91,大于第三阈值,因此,将句子F2加入扩充文本集合。
由此,通过上述步骤S210-S260将待处理文本与候选文本逐个比较,将符合条件的候选文本加入到扩充文本集合中。
本发明实施例通过在预定的文本索引系统中根据待处理文本确定第一候选文本集合,根据待处理文本和所述第一候选文本集合中各候选文本的相似度确定第二候选文本集合,根据待处理文本的第一句法模式和第二候选文本集合中各候选文本的第二句法模式对所述第二候选文本集合进行过滤以获取扩充文本集合。由此,可以比较精确地、快速地获取待处理文本的扩充文本。
图7是本发明实施例的电子设备的示意图。图7所示的电子设备为文本处理装置,其包括通用的计算机硬件结构,其至少包括处理器71和存储器72。处理器71和存储器72通过总线。连接。存储器72适于存储处理器71可执行的指令或程序。处理器71可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器71通过执行存储器72所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线73将上述多个组件连接在一起,同时将上述组件连接到显示控制器74和显示装置以及输入/输出(I/O)装置75。输入/输出(I/O)装置75可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置75通过输入/输出(I/O)控制器76与系统相连。
如本领域技术人员将意识到的,本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此,本发明实施例的各个方面可以采取如下形式:完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外,本发明实施例的各个方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。
计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质;不是计算机可读存储介质,并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。
可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。
用于执行针对本发明实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如Java、Smalltalk,C++等;以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行:部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。
上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明实施例的各个方面。将要理解的是,流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。
还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中,使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。
计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上,以便在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本处理方法,用于获取输入文本的扩充文本,其特征在于,所述方法包括:
获取待处理文本;
根据所述待处理文本在预定的文本索引系统中确定第一候选文本集合,所述第一候选文本集合包括多个候选文本;
根据所述待处理文本和所述第一候选文本集合中各候选文本的相似度确定第二候选文本集合;
确定所述待处理文本的第一句法模式;
分别确定所述第二候选文本集合中各候选文本的第二句法模式;
根据所述第一句法模式和第二句法模式对所述第二候选文本集合进行过滤以获取扩充文本集合。
2.根据权利要求1所述的方法,其特征在于,根据所述待处理文本和所述第一候选文本集合中各候选文本的相似度确定第二候选文本集合包括:
确定所述待处理文本的第一文本向量;
确定所述第一候选文本集合中各候选文本的第二文本向量;
分别确定所述第一文本向量和各第二文本向量的第一相似度;
根据所述第一相似度和第一阈值确定所述第二候选文本集合。
3.根据权利要求2所述的方法,其特征在于,根据所述第一相似度和第一阈值确定所述第二候选文本集合为将所述第一相似度大于第一阈值的候选文本加入所述第二候选文本集合。
4.根据权利要求2所述的方法,其特征在于,根据所述第一相似度和第一阈值确定所述第二候选文本集合包括:
获取所述待处理文本和所述第一候选文本集合中各候选文本的逆序文本;
确定所述待处理文本的逆序文本的第三文本向量;
确定所述第一候选文本集合中各候选文本的逆序文本的第四文本向量;
分别确定所述第三文本向量和各第四文本向量的第二相似度;
将所述第一相似度大于第一阈值且所述第二相似度大于第二阈值的候选文本加入所述第二候选文本集合。
5.根据权利要求1所述的方法,其特征在于,根据所述第一句法模式和第二句法模式对所述第二候选文本集合进行过滤以获取扩充文本集合包括:
根据所述第一句法模式和所述第二句法模式的状中关系、主谓关系、定中关系和动宾关系的一致性对所述第二候选文本集合进行过滤确定中间集合;
根据所述第一句法模式和所述第二句法模式的最长公共子串占比对所述中间集合进行过滤以获取所述扩充文本集合。
6.根据权利要求5所述的方法,其特征在于,根据最长公共子串占比对所述中间集合进行过滤以获取所述扩充文本集合包括:
确定所述第一句法模式和所述第二句法模式的最长公共子串,所述最长公共子串为所述第一句法模式和所述第二句法模式中相同词语的序列;
分别获取所述待处理文本和所述中间集合中各候选文本的平均长度;
根据所述最长公共子串的长度和所述平均长度计算获取最长公共子串占比;以及
将所述最长公共子串占比大于第三阈值的候选文本加入所述扩充文本集合。
7.根据权利要求6所述的方法,其特征在于,所述最长公共子串占比为所述最长公共子串的长度和所述平均长度的比值。
8.根据权利要求1所述的方法,其特征在于,所述第一句法模式和所述第二句法模式为句法依存树。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-8中任一项所述的方法。
10.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-8中任一项所述的方法。
CN201910833850.2A 2019-09-04 2019-09-04 文本处理方法、存储介质和电子设备 Pending CN110543544A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910833850.2A CN110543544A (zh) 2019-09-04 2019-09-04 文本处理方法、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910833850.2A CN110543544A (zh) 2019-09-04 2019-09-04 文本处理方法、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN110543544A true CN110543544A (zh) 2019-12-06

Family

ID=68711289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910833850.2A Pending CN110543544A (zh) 2019-09-04 2019-09-04 文本处理方法、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN110543544A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507198A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 用于处理查询文本的方法、装置、设备、介质和程序

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130344468A1 (en) * 2012-06-26 2013-12-26 Robert Taaffe Lindsay Obtaining Structured Data From Freeform Textual Answers in a Research Poll
CN106503175A (zh) * 2016-11-01 2017-03-15 上海智臻智能网络科技股份有限公司 相似文本的查询、问题扩展方法、装置及机器人
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
CN109658938A (zh) * 2018-12-07 2019-04-19 百度在线网络技术(北京)有限公司 语音与文本匹配的方法、装置、设备及计算机可读介质
CN109657213A (zh) * 2018-12-21 2019-04-19 北京金山安全软件有限公司 文本相似度检测方法、装置和电子设备
CN110276071A (zh) * 2019-05-24 2019-09-24 众安在线财产保险股份有限公司 一种文本匹配方法、装置、计算机设备及存储介质
CN111782759A (zh) * 2020-06-29 2020-10-16 数网金融有限公司 一种问答处理方法、装置及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130344468A1 (en) * 2012-06-26 2013-12-26 Robert Taaffe Lindsay Obtaining Structured Data From Freeform Textual Answers in a Research Poll
CN106503175A (zh) * 2016-11-01 2017-03-15 上海智臻智能网络科技股份有限公司 相似文本的查询、问题扩展方法、装置及机器人
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
CN109658938A (zh) * 2018-12-07 2019-04-19 百度在线网络技术(北京)有限公司 语音与文本匹配的方法、装置、设备及计算机可读介质
CN109657213A (zh) * 2018-12-21 2019-04-19 北京金山安全软件有限公司 文本相似度检测方法、装置和电子设备
CN110276071A (zh) * 2019-05-24 2019-09-24 众安在线财产保险股份有限公司 一种文本匹配方法、装置、计算机设备及存储介质
CN111782759A (zh) * 2020-06-29 2020-10-16 数网金融有限公司 一种问答处理方法、装置及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507198A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 用于处理查询文本的方法、装置、设备、介质和程序

Similar Documents

Publication Publication Date Title
US11605019B2 (en) Visually guided machine-learning language model
CN108875074B (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
US20200380027A1 (en) Multi-Modal Differential Search with Real-Time Focus Adaptation
US20170169008A1 (en) Method and electronic device for sentiment classification
JP7345046B2 (ja) 単語重複ベースのクラスタリングクロスモーダル検索
CN110704621A (zh) 文本处理方法、装置及存储介质和电子设备
CN112988969A (zh) 用于文本检索的方法、装置、设备以及存储介质
EP3113174A1 (en) Method for building a speech feature library, method, apparatus, and device for speech synthesis
CN110909160A (zh) 正则表达式生成方法、服务器及计算机可读存储介质
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN111460153A (zh) 热点话题提取方法、装置、终端设备及存储介质
WO2020232898A1 (zh) 文本分类方法、装置、电子设备及计算机非易失性可读存储介质
CN111104516B (zh) 一种文本分类方法、装置及电子设备
Gao et al. Text classification research based on improved Word2vec and CNN
CN115994177B (zh) 基于数据湖的知识产权管理方法及其系统
US10198497B2 (en) Search term clustering
CN106569989A (zh) 一种用于短文本的去重方法及装置
CN114444462B (zh) 模型训练方法及人机交互方法、装置
US9286289B2 (en) Ordering a lexicon network for automatic disambiguation
CN110543544A (zh) 文本处理方法、存储介质和电子设备
CN112069803A (zh) 文本备份方法、装置、设备及计算机可读存储介质
JP6555810B2 (ja) 類似度算出装置、類似検索装置、および類似度算出プログラム
CN116467461A (zh) 应用于配电网的数据处理方法、装置、设备及介质
CN113297854A (zh) 文本到知识图谱实体的映射方法、装置、设备及存储介质
CN111597310B (zh) 一种敏感内容检测方法、装置、设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191206

RJ01 Rejection of invention patent application after publication