CN109729126A - 文本资源的推送方法、装置、存储介质及处理器 - Google Patents

文本资源的推送方法、装置、存储介质及处理器 Download PDF

Info

Publication number
CN109729126A
CN109729126A CN201711053298.2A CN201711053298A CN109729126A CN 109729126 A CN109729126 A CN 109729126A CN 201711053298 A CN201711053298 A CN 201711053298A CN 109729126 A CN109729126 A CN 109729126A
Authority
CN
China
Prior art keywords
text
similarity
target
keyword
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711053298.2A
Other languages
English (en)
Inventor
石鹏
王福伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201711053298.2A priority Critical patent/CN109729126A/zh
Priority to PCT/CN2018/112379 priority patent/WO2019085856A1/zh
Publication of CN109729126A publication Critical patent/CN109729126A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications

Abstract

本发明提供了一种文本资源的推送方法、装置、存储介质及处理器,其中,该方法包括:确定客户端获取的第一文本的目标文本类型;在预设的文本集合中查找类型为目标文本类型的多个第二文本;确定第一文本与多个第二文本之间的第一相似度;确定第一相似度满足预设条件的第二文本为目标文本;将目标文本推送给客户端。采用上述技术方案,解决了相关技术中文本资源的推送效率较低的问题,提高了文本资源的推送效率。

Description

文本资源的推送方法、装置、存储介质及处理器
技术领域
本发明涉及通信领域,具体而言,涉及一种文本资源的推送方法、装置、存储介质及处理器。
背景技术
随着互联网技术的迅猛发展,网络上充斥着大量的文本资源。有的时候,用户可能需要查找相关资料进行浏览,如何为用户推送相关文本资源就成为了目前研究的重点。但是,现有的文本资源的推送方式的针对性和有效性都比较低,这就导致了文本资源的推送效率较低。
针对相关技术中文本资源的推送效率较低的问题,目前还没有有效地解决方案。
发明内容
本发明实施例提供了一种文本资源的推送方法、装置、存储介质及处理器,以至少解决相关技术中文本资源的推送效率较低的问题。
根据本发明的一个实施例,提供了一种文本资源的推送方法,包括:确定客户端获取的第一文本的目标文本类型;在预设的文本集合中查找类型为所述目标文本类型的多个第二文本;确定所述第一文本与所述多个第二文本之间的第一相似度;确定所述第一相似度满足预设条件的第二文本为目标文本;将所述目标文本推送给所述客户端。
可选地,确定所述第一文本与所述多个第二文本之间的所述第一相似度包括:根据多个第一关键词对所述第一文本进行划分,得到第一文本块集合,其中,所述第一关键词用于指示文本段落的特征,所述第一关键词与所述第一文本块集合中的第一文本块一一对应,并且所述第一关键词与每个所述第二文本中的第二文本块一一对应;确定每个所述第一关键词对应的第一文本块与第二文本块之间的第一目标相似度;根据每个所述第一目标相似度对应的第一预设权重与所述第一目标相似度确定所述第一相似度。
可选地,根据每个所述第一目标相似度对应的第一预设权重与所述第一目标相似度确定所述第一相似度包括以下之一:根据所述第一预设权重确定所述第一目标相似度的第一加权和,将所述第一加权和作为所述第一相似度;根据所述第一预设权重确定所述第一目标相似度的第一加权平均数,将所述第一加权平均数作为所述第一相似度;确定所述第一文本与所述第二文本之间的第二目标相似度;根据所述第一预设权重以及所述第二目标相似度对应的第二预设权重确定所述第一目标相似度和所述第二目标相似度的第二加权和,将所述第二加权和作为所述第一相似度;确定所述第一文本与所述第二文本之间的第二目标相似度;根据所述第一预设权重以及所述第二目标相似度对应的第二预设权重确定所述第一目标相似度和所述第二目标相似度的第二加权平均数,将所述第二加权平均数作为所述第一相似度。
可选地,确定所述第一相似度满足预设条件的第二文本为目标文本包括以下之一:确定所述第一相似度落于预设阈值范围内的所述第二文本为所述目标文本;按照所述第一相似度由高到低对所述第二文本进行排序;确定排在前预设数量个的所述第二文本为所述目标文本。
可选地,确定所述客户端获取的所述第一文本的所述目标文本类型包括:在所述第一文本中查找第二关键词所在的段落,并将查找到的所述段落确定为特征段落;在所述特征段落中获取第三关键词;从关键词与文本类型的对应关系中查找所述第三关键词对应的所述目标文本类型。
根据本发明的另一个实施例,提供了一种文本资源的推送装置,包括:第一确定模块,用于确定客户端获取的第一文本的目标文本类型;查找模块,用于在预设的文本集合中查找类型为所述目标文本类型的多个第二文本;第二确定模块,用于确定所述第一文本与所述多个第二文本之间的第一相似度;第三确定模块,用于确定所述第一相似度满足预设条件的第二文本为目标文本;推送模块,用于将所述目标文本推送给所述客户端。
可选地,所述第二确定模块包括:划分单元,用于根据多个第一关键词对所述第一文本进行划分,得到第一文本块集合,其中,所述第一关键词用于指示文本段落的特征,所述第一关键词与所述第一文本块集合中的第一文本块一一对应,并且所述第一关键词与每个所述第二文本中的第二文本块一一对应;第一确定单元,用于确定每个所述第一关键词对应的第一文本块与第二文本块之间的第一目标相似度;第二确定单元,用于根据每个所述第一目标相似度对应的第一预设权重与所述第一目标相似度确定所述第一相似度。
可选地,所述第一确定模块包括:第一查找单元,用于在所述第一文本中查找第二关键词所在的段落,并将查找到的所述段落确定为特征段落;获取单元,用于在所述特征段落中获取第三关键词;第二查找单元,用于从关键词与文本类型的对应关系中查找所述第三关键词对应的所述目标文本类型。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行上述任一项所述的方法。
根据本发明的又一个实施例,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任一项所述的方法。
通过本发明,确定客户端获取的第一文本的目标文本类型;在预设的文本集合中查找类型为目标文本类型的多个第二文本;确定第一文本与多个第二文本之间的第一相似度;确定第一相似度满足预设条件的第二文本为目标文本;将目标文本推送给客户端,由此可见,采用上述方案根据获取的第一文本的目标文本类型从预设的文本集合中查找与第一文本类型相同的多个第二文本,从而保证推送的文本资源是与用户希望查找的文本同类型的文本资源,再从查找到的多个第二文本中获取与第一文本相似度较高的第二文本作为目标文本,并将目标文本推送给客户端,使得推送的客户端的文本资源与从客户端获取的第一文本具有相同的文本类型并且较为相似,提高了向客户端推送文本资源的针对性和有效性,因此,提高了文本资源的推送效率,从而解决了相关技术中文本资源的推送效率较低的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种文本资源的推送方法的移动终端的硬件结构框图;
图2是根据本发明实施例的一种文本资源的推送方法的流程图;
图3是根据本发明可选的实施方式的确定第一相似度的示意图;
图4是根据本发明实施例的一种文本资源的推送装置的结构框图一;
图5是根据本发明实施例的一种文本资源的推送装置的结构框图二;
图6是根据本发明实施例的一种文本资源的推送装置的结构框图三。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种文本资源的推送方法的移动终端的硬件结构框图,如图1所示,移动终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的文本资源的推送方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种文本资源的推送方法,图2是根据本发明实施例的一种文本资源的推送方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,确定客户端获取的第一文本的目标文本类型;
步骤S204,在预设的文本集合中查找类型为目标文本类型的多个第二文本;
步骤S206,确定第一文本与多个第二文本之间的第一相似度;
步骤S208,确定第一相似度满足预设条件的第二文本为目标文本;
步骤S210,将目标文本推送给客户端。
可选地,上述文本资源的推送方法可以但不限于应用于为用户推送文本资源的场景中。例如:新闻资讯应用中为用户推送文本资源的场景、文本资源阅读应用中为用户推送文本资源的场景等等。
可选地,上述文本资源的推送方法可以但不限于应用于终端设备或者服务器设备等等,例如:终端设备可以但不限于包括:手机、平板电脑、PC计算机、智能穿戴设备、智能电子设备、智能家居设备等等。
可选地,在上述实施例中,上述客户端可以但不限于为应用程序的客户端,例如:上述应用程序可以但不限于包络:新闻资讯应用、文本资源阅读应用、即时通信应用、浏览器应用等等。
可选地,在上述实施例中,文本资源的文本类型可以但不限于是根据文本资源涉及的领域划分的,比如:体育、娱乐、科技、财经、军事等等。文本资源的文本类型还可以但不限于是根据某类型文本资源中的分类规则进行划分的,比如:在法律文件中的裁判文书按审级划分为一审文件、二审文件等等,按案件类型划分为民事案件文件、行政案件文件;或在法律文件中的庭审笔录/裁判文书按案由划分为商标侵权纠纷案文件、生命权纠纷案文件、离婚纠纷案文件等等。
可选地,在本实施例中,预设条件可以设置为用于获取第一相似度较高的第二文本的条件。例如:第一相似度最高、第一相似度高于某预设值等等。
在一个可选的实施方式中,以由服务器根据当前的前置文书材料为法官智能推荐相似案件的裁判文书为例,前置文书是法院裁判案件的重要的书面材料和依据,它是法院卷宗的重要组成部分,包括:庭审笔录,起诉状,答辩状等。裁判文书记载了法院审理案件的过程和结果,是诉讼活动结果的载体。
前置文书中包含如下信息:法院对诉讼案件所涉及的法律关系的性质的概括(案由);原告或上诉人的诉请;被告或被上诉人的答辩;当事人双方证据的展示、辩论和质证意见等。这些信息是法官做出诉讼判决的重要参考依据。而裁判文书也包含了上述信息,除此以外,还包含法院对案件的论理,法官做出判决的适用法律以及裁判结果等。
服务器接收客户端获取的第一文本,该第一文本为当前待判定案件的前置文书,前置文书的文本类型可以按案由划分为商标侵权纠纷、生命权纠纷、离婚纠纷等,按照案件类型划分为民事案件、行政案件、刑事案件,服务器确定当前的前置文书的目标文本类型为商标侵权纠纷的民事案件,预设的文本集合中包括大量已判案件的裁判文书,在预设的文本集合中查找案由为商标侵权纠纷的民事案件的裁判文书作为上述多个第二文本,确定当前的前置文书与案由为商标侵权纠纷的民事案件的裁判文书之间的第一相似度,对第一相似度进行排序,将排在前10位的裁判文书确定为目标文本,并将目标文本推送给客户端。
通过上述步骤,根据获取的第一文本的目标文本类型从预设的文本集合中查找与第一文本类型相同的多个第二文本,从而保证推送的文本资源是与用户希望查找的文本同类型的文本资源,再从查找到的多个第二文本中获取与第一文本相似度较高的第二文本作为目标文本,并将目标文本推送给客户端,使得推送的客户端的文本资源与从客户端获取的第一文本具有相同的文本类型并且较为相似,提高了向客户端推送文本资源的针对性和有效性,因此,提高了文本资源的推送效率,从而解决了相关技术中文本资源的推送效率较低的问题。
可选地,在确定第一相似度的过程中,可以将第一文本划分为多个第一文本块,并分别确定各个第一文本块与第二文本中的第二文本块之间的第一目标相似度,再根据各个文本块对两个文本之间相似度的影响程度对第一目标相似度进行加权运算,从而确定第一文本与每个第二文本之间的第一相似度。例如:在上述步骤S206中,根据多个第一关键词对第一文本进行划分,得到第一文本块集合,其中,第一关键词用于指示文本段落的特征,第一关键词与第一文本块集合中的第一文本块一一对应,并且第一关键词与每个第二文本中的第二文本块一一对应,并确定每个第一关键词对应的第一文本块与第二文本块之间的第一目标相似度,再根据每个第一目标相似度对应的第一预设权重与第一目标相似度确定第一相似度。
可选地,在本实施例中,第二文本中的第二文本块可以但不限于通过服务器对第二文本进行预处理解析获取,第二文本块可以为多个,服务器可以按照段落内容的特征将第二文本解析为多个第二文本块。例如:服务器可以对裁判文书库中的裁判文书进行段落解析,解析出如下段落:诉请段,答辩段,证据段,质证意见段,争议焦点段,审理查明段,本院认为段等等。
在上述可选的实施方式中,服务器对第一文本中的庭审笔录进行段落解析,得到如下描述段:原告诉请段(原告陈述的起诉的事实和理由及诉讼请求);被告答辩段(被告对于原告诉请陈述的答辩意见);证据段(当事人双方对证据的展示);质证意见和辩论段(当事人双方互相的质证和辩论);法庭询问段(法庭的询问及当事人双方的回答)
服务器对起诉状或上诉状进行段落解析,得到如下描述段:原告诉请段及事实理由描述。对答辩状或上诉答辩状进行段落解析,得到如下描述段:被告答辩意见。
上述第一文本块包括:起诉状(诉请段)+上诉状(诉请段)、答辩状(答辩意见段)+上诉答辩状(答辩意见段)、庭审笔录(法庭调查与辩论段)+起诉状(事实理由段)。
图3是根据本发明可选的实施方式的确定第一相似度的示意图,如图3所示,第二文本的第二文本块包括:裁判文书(诉请段)、裁判文书(答辩意见段)、裁判文书(事实认定段+本院认为段)、裁判文书全文。服务器分别确定起诉状(诉请段)+上诉状(诉请段)与裁判文书(诉请段)的第一目标相似度为S1,答辩状(答辩意见段)+上诉答辩状(答辩意见段)与裁判文书(答辩意见段)的第一目标相似度为S2,庭审笔录(法庭调查与辩论段)+起诉状(事实理由段)与裁判文书(事实认定段+本院认为段)的第一目标相似度为S3。上述第一目标相似度对应的第一预设权重分别为W1、W2、W3。服务器再根据上述第一目标相似度对应的第一预设权重与上述第一目标相似度确定第一相似度。
可选地,可以但不限于通过以下方式之一确定第一相似度:
方式一,根据第一预设权重确定第一目标相似度的第一加权和,将第一加权和作为第一相似度。
例如:在上述可选的实施方式中,第一相似度P=W1*S1+W2*S2+W3*S3。
方式二,根据第一预设权重确定第一目标相似度的第一加权平均数,将第一加权平均数作为第一相似度。
例如:在上述可选的实施方式中,第一相似度P=(W1*S1+W2*S2+W3*S3)/3。
方式三,确定第一文本与第二文本之间的第二目标相似度;根据第一预设权重以及第二目标相似度对应的第二预设权重确定第一目标相似度和第二目标相似度的第二加权和,将第二加权和作为第一相似度。
例如:在上述可选的实施方式中,第一文本与第二文本之间的第二目标相似度为X,该第二目标相似度对应的第二预设权重为V,则第一相似度P=W1*S1+W2*S2+W3*S3+V*X。
方式四,确定第一文本与第二文本之间的第二目标相似度;根据第一预设权重以及第二目标相似度对应的第二预设权重确定第一目标相似度和第二目标相似度的第二加权平均数,将第二加权平均数作为第一相似度。
例如:在上述可选的实施方式中,第一文本与第二文本之间的第二目标相似度为X,该第二目标相似度对应的第二预设权重为V,则第一相似度P=(W1*S1+W2*S2+W3*S3+V*X)/4。
可选地,在本实施例中,确定第一文本与第二文本之间的第二目标相似度,并将第二目标相似度对两个文本之间的第一相似度的影响考虑到第一相似度的确定过程中,可以避免筛选出部分相似度极高,但整体上却并不类似的文本。
可选地,可以但不限于通过以下方式之一从多个第二文本中确定目标文本:
方式1,确定第一相似度落于预设阈值范围内的第二文本为目标文本。例如:预设阈值范围设置为高于P0,则将第一相似度大于P0的第二文本作为目标文本。
方式2,按照第一相似度由高到低对第二文本进行排序;确定排在前预设数量个的第二文本为目标文本。例如:预设数量可以为1,则将多个第二文本中第一相似度最高的文本确定为目标文本。预设数量可以为10,则从多个第二文本中筛选出第一相似度排在前十位的文本作为目标文本。
可选地,在上述步骤S202中,可以但不限于通过以下方式确定目标文本类型:在第一文本中查找第二关键词所在的段落,并将查找到的段落确定为特征段落,在特征段落中获取第三关键词,从关键词与文本类型的对应关系中查找第三关键词对应的目标文本类型。
可选地,在本实施例中,上述第二关键词可以用于指示目标文本段落的特征,第二关键词与第一文本块集合中的一个第一文本块对应,上诉第三关键词可以为用于表征文本类型的关键词。例如:上述第一文本为庭审笔录,服务器在庭审笔录中查找第二关键词“宣布开庭”所在的段落,并将该段确定为特征段落,在该段中获取到第三关键词“商标权纠纷”,服务器可以从关键词与文本类型的对应关系中查找“商标权纠纷”对应的目标文本类型为商标权权属纠纷案件。
在上述可选的实施方式中,可以解析前置文书中的案由,审级和案件类型,首先提取出庭审笔录中对案由的描述(在宣布开庭的段落部分)。例如:“审:现在宣布开庭。北京市xxx人民法院,今天依法适用普通程序公开审理原告xxx诉被告xxx商标权权属纠纷一案,本案由本院代理审判员xxx担任审判长,与本院代理审判员xxx、xxx依法组成合议庭,由书记员xxx担任法庭记录”。服务器从中提取出案由(商标权权属纠纷),解析出案件类型(民事或行政)。
实施例2
在本实施例中还提供了一种文本资源的推送装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的一种文本资源的推送装置的结构框图一,如图4所示,该装置包括:
第一确定模块402,用于确定客户端获取的第一文本的目标文本类型;
查找模块404,耦合至第一确定模块402,用于在预设的文本集合中查找类型为目标文本类型的多个第二文本;
第二确定模块406,耦合至查找模块404,用于确定第一文本与多个第二文本之间的第一相似度;
第三确定模块408,耦合至第二确定模块406,用于确定第一相似度满足预设条件的第二文本为目标文本;
推送模块410,耦合至第三确定模块408,用于将目标文本推送给客户端。
可选地,上述文本资源的推送装置可以但不限于应用于为用户推送文本资源的场景中。例如:新闻资讯应用中为用户推送文本资源的场景、文本资源阅读应用中为用户推送文本资源的场景等等。
可选地,上述文本资源的推送装置可以但不限于应用于终端设备或者服务器设备等等,例如:终端设备可以但不限于包括:手机、平板电脑、PC计算机、智能穿戴设备、智能电子设备、智能家居设备等等。
可选地,在上述实施例中,上述客户端可以但不限于为应用程序的客户端,例如:上述应用程序可以但不限于包络:新闻资讯应用、文本资源阅读应用、即时通信应用、浏览器应用等等。
可选地,在上述实施例中,文本资源的文本类型可以但不限于是根据文本资源涉及的领域划分的,比如:体育、娱乐、科技、财经、军事等等。文本资源的文本类型还可以但不限于是根据某类型文本资源中的分类规则进行划分的,比如:在法律文件中的裁判文书按审级划分为一审文件、二审文件等等,按案件类型划分为民事案件文件、行政案件文件;或在法律文件中的庭审笔录/裁判文书按案由划分为商标侵权纠纷案文件、生命权纠纷案文件、离婚纠纷案文件等等。
可选地,在本实施例中,预设条件可以设置为用于获取第一相似度较高的第二文本的条件。例如:第一相似度最高、第一相似度高于某预设值等等。
在一个可选的实施方式中,以由服务器根据当前的前置文书材料为法官智能推荐相似案件的裁判文书为例,前置文书是法院裁判案件的重要的书面材料和依据,它是法院卷宗的重要组成部分,包括:庭审笔录,起诉状,答辩状等。裁判文书记载了法院审理案件的过程和结果,是诉讼活动结果的载体。
前置文书中包含如下信息:法院对诉讼案件所涉及的法律关系的性质的概括(案由);原告或上诉人的诉请;被告或被上诉人的答辩;当事人双方证据的展示、辩论和质证意见等。这些信息是法官做出诉讼判决的重要参考依据。而裁判文书也包含了上述信息,除此以外,还包含法院对案件的论理,法官做出判决的适用法律以及裁判结果等。
服务器接收客户端获取的第一文本,该第一文本为当前待判定案件的前置文书,前置文书的文本类型可以按案由划分为商标侵权纠纷、生命权纠纷、离婚纠纷等,按照案件类型划分为民事案件、行政案件、刑事案件,服务器确定当前的前置文书的目标文本类型为商标侵权纠纷的民事案件,预设的文本集合中包括大量已判案件的裁判文书,在预设的文本集合中查找案由为商标侵权纠纷的民事案件的裁判文书作为上述多个第二文本,确定当前的前置文书与案由为商标侵权纠纷的民事案件的裁判文书之间的第一相似度,对第一相似度进行排序,将排在前10位的裁判文书确定为目标文本,并将目标文本推送给客户端。
通过上述装置,根据获取的第一文本的目标文本类型从预设的文本集合中查找与第一文本类型相同的多个第二文本,从而保证推送的文本资源是与用户希望查找的文本同类型的文本资源,再从查找到的多个第二文本中获取与第一文本相似度较高的第二文本作为目标文本,并将目标文本推送给客户端,使得推送的客户端的文本资源与从客户端获取的第一文本具有相同的文本类型并且较为相似,提高了向客户端推送文本资源的针对性和有效性,因此,提高了文本资源的推送效率,从而解决了相关技术中文本资源的推送效率较低的问题。
图5是根据本发明实施例的一种文本资源的推送装置的结构框图二,如图5所示,可选地,第二确定模块406包括:
划分单元52,用于根据多个第一关键词对第一文本进行划分,得到第一文本块集合,其中,第一关键词用于指示文本段落的特征,第一关键词与第一文本块集合中的第一文本块一一对应,并且第一关键词与每个第二文本中的第二文本块一一对应;
第一确定单元54,耦合至划分单元52,用于确定每个第一关键词对应的第一文本块与第二文本块之间的第一目标相似度;
第二确定单元56,耦合至第一确定单元54,用于根据每个第一目标相似度对应的第一预设权重与第一目标相似度确定第一相似度。
可选地,在确定第一相似度的过程中,可以将第一文本划分为多个第一文本块,并分别确定各个第一文本块与第二文本中的第二文本块之间的第一目标相似度,再根据各个文本块对两个文本之间相似度的影响程度对第一目标相似度进行加权运算,从而确定第一文本与每个第二文本之间的第一相似度。
可选地,在本实施例中,第二文本中的第二文本块可以但不限于通过服务器对第二文本进行预处理解析获取,第二文本块可以为多个,服务器可以按照段落内容的特征将第二文本解析为多个第二文本块。例如:服务器可以对裁判文书库中的裁判文书进行段落解析,解析出如下段落:诉请段,答辩段,证据段,质证意见段,争议焦点段,审理查明段,本院认为段等等。
在上述可选的实施方式中,服务器对第一文本中的庭审笔录进行段落解析,得到如下描述段:原告诉请段(原告陈述的起诉的事实和理由及诉讼请求);被告答辩段(被告对于原告诉请陈述的答辩意见);证据段(当事人双方对证据的展示);质证意见和辩论段(当事人双方互相的质证和辩论);法庭询问段(法庭的询问及当事人双方的回答)
服务器对起诉状或上诉状进行段落解析,得到如下描述段:原告诉请段及事实理由描述。对答辩状或上诉答辩状进行段落解析,得到如下描述段:被告答辩意见。
上述第一文本块包括:起诉状(诉请段)+上诉状(诉请段)、答辩状(答辩意见段)+上诉答辩状(答辩意见段)、庭审笔录(法庭调查与辩论段)+起诉状(事实理由段)。
图3是根据本发明可选的实施方式的确定第一相似度的示意图,如图3所示,第二文本的第二文本块包括:裁判文书(诉请段)、裁判文书(答辩意见段)、裁判文书(事实认定段+本院认为段)、裁判文书全文。服务器分别确定起诉状(诉请段)+上诉状(诉请段)与裁判文书(诉请段)的第一目标相似度为S1,答辩状(答辩意见段)+上诉答辩状(答辩意见段)与裁判文书(答辩意见段)的第一目标相似度为S2,庭审笔录(法庭调查与辩论段)+起诉状(事实理由段)与裁判文书(事实认定段+本院认为段)的第一目标相似度为S3。上述第一目标相似度对应的第一预设权重分别为W1、W2、W3。服务器再根据上述第一目标相似度对应的第一预设权重与上述第一目标相似度确定第一相似度。
可选地,第二确定单元56用于以下之一:
根据第一预设权重确定第一目标相似度的第一加权和,将第一加权和作为第一相似度;例如:在上述可选的实施方式中,第一相似度P=W1*S1+W2*S2+W3*S3。
根据第一预设权重确定第一目标相似度的第一加权平均数,将第一加权平均数作为第一相似度;例如:在上述可选的实施方式中,第一相似度P=(W1*S1+W2*S2+W3*S3)/3。
确定第一文本与第二文本之间的第二目标相似度;根据第一预设权重以及第二目标相似度对应的第二预设权重确定第一目标相似度和第二目标相似度的第二加权和,将第二加权和作为第一相似度;例如:在上述可选的实施方式中,第一文本与第二文本之间的第二目标相似度为X,该第二目标相似度对应的第二预设权重为V,则第一相似度P=W1*S1+W2*S2+W3*S3+V*X。
确定第一文本与第二文本之间的第二目标相似度;根据第一预设权重以及第二目标相似度对应的第二预设权重确定第一目标相似度和第二目标相似度的第二加权平均数,将第二加权平均数作为第一相似度。例如:在上述可选的实施方式中,第一文本与第二文本之间的第二目标相似度为X,该第二目标相似度对应的第二预设权重为V,则第一相似度P=(W1*S1+W2*S2+W3*S3+V*X)/4。
可选地,在本实施例中,确定第一文本与第二文本之间的第二目标相似度,并将第二目标相似度对两个文本之间的第一相似度的影响考虑到第一相似度的确定过程中,可以避免筛选出部分相似度极高,但整体上却并不类似的文本。
可选地,第三确定模块408用于以下之一:
确定第一相似度落于预设阈值范围内的第二文本为目标文本;例如:预设阈值范围设置为高于P0,则将第一相似度大于P0的第二文本作为目标文本。
按照第一相似度由高到低对第二文本进行排序;确定排在前预设数量个的第二文本为目标文本。例如:预设数量可以为1,则将多个第二文本中第一相似度最高的文本确定为目标文本。预设数量可以为10,则从多个第二文本中筛选出第一相似度排在前十位的文本作为目标文本。
图6是根据本发明实施例的一种文本资源的推送装置的结构框图三,如图6所示,可选地,第一确定模块402包括:
第一查找单元62,用于在第一文本中查找第二关键词所在的段落,并将查找到的段落确定为特征段落;
获取单元64,耦合至第一查找单元62,用于在特征段落中获取第三关键词;
第二查找单元66,耦合至获取单元64,用于从关键词与文本类型的对应关系中查找第三关键词对应的目标文本类型。
可选地,在本实施例中,上述第二关键词可以用于指示目标文本段落的特征,第二关键词与第一文本块集合中的一个第一文本块对应,上诉第三关键词可以为用于表征文本类型的关键词。
例如:上述第一文本为庭审笔录,服务器在庭审笔录中查找第二关键词“宣布开庭”所在的段落,并将该段确定为特征段落,在该段中获取到第三关键词“商标权纠纷”,服务器可以从关键词与文本类型的对应关系中查找“商标权纠纷”对应的目标文本类型为商标权权属纠纷案件。
在上述可选的实施方式中,可以解析前置文书中的案由,审级和案件类型,首先提取出庭审笔录中对案由的描述(在宣布开庭的段落部分)。例如:“审:现在宣布开庭。北京市xxx人民法院,今天依法适用普通程序公开审理原告xxx诉被告xxx商标权权属纠纷一案,本案由本院代理审判员xxx担任审判长,与本院代理审判员xxx、xxx依法组成合议庭,由书记员xxx担任法庭记录”。服务器从中提取出案由(商标权权属纠纷),解析出案件类型(民事或行政)。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述模块分别位于多个处理器中。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。
实施例4
本发明的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项所述的方法。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,确定客户端获取的第一文本的目标文本类型;
S2,在预设的文本集合中查找类型为目标文本类型的多个第二文本;
S3,确定第一文本与多个第二文本之间的第一相似度;
S4,确定第一相似度满足预设条件的第二文本为目标文本;
S5,将目标文本推送给客户端。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本发明的实施例还提供了一种处理器,该处理器用于运行程序,其中,该程序运行时执行上述任一项方法中的步骤。
可选地,在本实施例中,上述程序用于执行以下步骤:
S1,确定客户端获取的第一文本的目标文本类型;
S2,在预设的文本集合中查找类型为目标文本类型的多个第二文本;
S3,确定第一文本与多个第二文本之间的第一相似度;
S4,确定第一相似度满足预设条件的第二文本为目标文本;
S5,将目标文本推送给客户端。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本资源的推送方法,其特征在于,包括:
确定客户端获取的第一文本的目标文本类型;
在预设的文本集合中查找类型为所述目标文本类型的多个第二文本;
确定所述第一文本与所述多个第二文本之间的第一相似度;
确定所述第一相似度满足预设条件的第二文本为目标文本;
将所述目标文本推送给所述客户端。
2.根据权利要求1所述的方法,其特征在于,确定所述第一文本与所述多个第二文本之间的所述第一相似度包括:
根据多个第一关键词对所述第一文本进行划分,得到第一文本块集合,其中,所述第一关键词用于指示文本段落的特征,所述第一关键词与所述第一文本块集合中的第一文本块一一对应,并且所述第一关键词与每个所述第二文本中的第二文本块一一对应;
确定每个所述第一关键词对应的第一文本块与第二文本块之间的第一目标相似度;
根据每个所述第一目标相似度对应的第一预设权重与所述第一目标相似度确定所述第一相似度。
3.根据权利要求2所述的方法,其特征在于,根据每个所述第一目标相似度对应的第一预设权重与所述第一目标相似度确定所述第一相似度包括以下之一:
根据所述第一预设权重确定所述第一目标相似度的第一加权和,将所述第一加权和作为所述第一相似度;
根据所述第一预设权重确定所述第一目标相似度的第一加权平均数,将所述第一加权平均数作为所述第一相似度;
确定所述第一文本与所述第二文本之间的第二目标相似度;根据所述第一预设权重以及所述第二目标相似度对应的第二预设权重确定所述第一目标相似度和所述第二目标相似度的第二加权和,将所述第二加权和作为所述第一相似度;
确定所述第一文本与所述第二文本之间的第二目标相似度;根据所述第一预设权重以及所述第二目标相似度对应的第二预设权重确定所述第一目标相似度和所述第二目标相似度的第二加权平均数,将所述第二加权平均数作为所述第一相似度。
4.根据权利要求1所述的方法,其特征在于,确定所述第一相似度满足预设条件的第二文本为目标文本包括以下之一:
确定所述第一相似度落于预设阈值范围内的所述第二文本为所述目标文本;
按照所述第一相似度由高到低对所述第二文本进行排序;确定排在前预设数量个的所述第二文本为所述目标文本。
5.根据权利要求1至4中任一项所述的方法,其特征在于,确定所述客户端获取的所述第一文本的所述目标文本类型包括:
在所述第一文本中查找第二关键词所在的段落,并将查找到的所述段落确定为特征段落;
在所述特征段落中获取第三关键词;
从关键词与文本类型的对应关系中查找所述第三关键词对应的所述目标文本类型。
6.一种文本资源的推送装置,其特征在于,包括:
第一确定模块,用于确定客户端获取的第一文本的目标文本类型;
查找模块,用于在预设的文本集合中查找类型为所述目标文本类型的多个第二文本;
第二确定模块,用于确定所述第一文本与所述多个第二文本之间的第一相似度;
第三确定模块,用于确定所述第一相似度满足预设条件的第二文本为目标文本;
推送模块,用于将所述目标文本推送给所述客户端。
7.根据权利要求6所述的装置,其特征在于,所述第二确定模块包括:
划分单元,用于根据多个第一关键词对所述第一文本进行划分,得到第一文本块集合,其中,所述第一关键词用于指示文本段落的特征,所述第一关键词与所述第一文本块集合中的第一文本块一一对应,并且所述第一关键词与每个所述第二文本中的第二文本块一一对应;
第一确定单元,用于确定每个所述第一关键词对应的第一文本块与第二文本块之间的第一目标相似度;
第二确定单元,用于根据每个所述第一目标相似度对应的第一预设权重与所述第一目标相似度确定所述第一相似度。
8.根据权利要求6或7所述的装置,其特征在于,所述第一确定模块包括:
第一查找单元,用于在所述第一文本中查找第二关键词所在的段落,并将查找到的所述段落确定为特征段落;
获取单元,用于在所述特征段落中获取第三关键词;
第二查找单元,用于从关键词与文本类型的对应关系中查找所述第三关键词对应的所述目标文本类型。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至5中任一项所述的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任一项所述的方法。
CN201711053298.2A 2017-10-31 2017-10-31 文本资源的推送方法、装置、存储介质及处理器 Pending CN109729126A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711053298.2A CN109729126A (zh) 2017-10-31 2017-10-31 文本资源的推送方法、装置、存储介质及处理器
PCT/CN2018/112379 WO2019085856A1 (zh) 2017-10-31 2018-10-29 文本资源的推送方法、装置、存储介质及处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711053298.2A CN109729126A (zh) 2017-10-31 2017-10-31 文本资源的推送方法、装置、存储介质及处理器

Publications (1)

Publication Number Publication Date
CN109729126A true CN109729126A (zh) 2019-05-07

Family

ID=66293364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711053298.2A Pending CN109729126A (zh) 2017-10-31 2017-10-31 文本资源的推送方法、装置、存储介质及处理器

Country Status (2)

Country Link
CN (1) CN109729126A (zh)
WO (1) WO2019085856A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362592A (zh) * 2019-06-17 2019-10-22 平安科技(深圳)有限公司 裁决指引信息推送方法、装置、计算机设备和存储介质
CN110532359A (zh) * 2019-06-14 2019-12-03 平安科技(深圳)有限公司 法律条文查询方法、装置、计算机设备和存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784034A (zh) * 2019-11-01 2021-05-11 阿里巴巴集团控股有限公司 摘要生成方法、装置及计算机设备
CN112989820B (zh) * 2021-03-22 2022-12-02 平安国际智慧城市科技股份有限公司 法律文书定位方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014194184A1 (en) * 2013-05-30 2014-12-04 Kabam, Inc. Forwarding virtual event notifications to a user device
CN106294502A (zh) * 2015-06-09 2017-01-04 北京搜狗科技发展有限公司 一种电子书信息处理方法及装置
CN107273391A (zh) * 2016-04-08 2017-10-20 北京国双科技有限公司 文书推荐方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100816923B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서 분류 시스템 및 그 방법
US8255405B2 (en) * 2009-01-30 2012-08-28 Hewlett-Packard Development Company, L.P. Term extraction from service description documents
CN103631769B (zh) * 2012-08-23 2017-10-17 北京音之邦文化科技有限公司 一种判断文件内容与标题间一致性的方法及装置
CN103838735A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种提高检索效率和质量的数据检索方法
CN104298704B (zh) * 2014-08-06 2018-02-16 南京全民乐彩信息科技有限公司 在博客上实现文本推送的方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014194184A1 (en) * 2013-05-30 2014-12-04 Kabam, Inc. Forwarding virtual event notifications to a user device
CN106294502A (zh) * 2015-06-09 2017-01-04 北京搜狗科技发展有限公司 一种电子书信息处理方法及装置
CN107273391A (zh) * 2016-04-08 2017-10-20 北京国双科技有限公司 文书推荐方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532359A (zh) * 2019-06-14 2019-12-03 平安科技(深圳)有限公司 法律条文查询方法、装置、计算机设备和存储介质
CN110362592A (zh) * 2019-06-17 2019-10-22 平安科技(深圳)有限公司 裁决指引信息推送方法、装置、计算机设备和存储介质
CN110362592B (zh) * 2019-06-17 2023-06-23 平安科技(深圳)有限公司 裁决指引信息推送方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2019085856A1 (zh) 2019-05-09

Similar Documents

Publication Publication Date Title
US9600570B2 (en) Method and system for text filtering
CN109729126A (zh) 文本资源的推送方法、装置、存储介质及处理器
CN110909160A (zh) 正则表达式生成方法、服务器及计算机可读存储介质
CN109101658A (zh) 信息搜索方法、装置及设备/终端/服务器
CN103902535A (zh) 获取联想词的方法、装置及系统
CN108897860B (zh) 信息推送方法、装置、电子设备及计算机可读存储介质
CN107578659A (zh) 电子题目的生成方法、生成装置及终端
CN107679213A (zh) 一种习题搜索方法、系统及终端设备
CN112559809A (zh) 消费者多渠道数据整合方法、系统、设备及存储介质
CN109829073B (zh) 一种图像搜索的方法及装置
CN112507167A (zh) 一种识别视频合集的方法、装置、电子设备及存储介质
CN109241392A (zh) 目标词的识别方法、装置、系统及存储介质
CN111126928A (zh) 对发布内容审核的方法和装置
CN105550179A (zh) 一种网页收藏方法和浏览器插件
CN105808688B (zh) 基于人工智能的补全检索方法及装置
CN111324725B (zh) 一种话题获取方法、终端、计算机可读存储介质
CN113609409A (zh) 一种推荐浏览信息的方法及其系统、电子设备、存储介质
CN110008352B (zh) 实体发现方法及装置
CN112507229A (zh) 一种文档推荐方法、系统和计算机设备
CN110008398B (zh) 一种数据分类管理推荐方法及装置
CN104090878A (zh) 一种多媒体查找方法、终端、服务器及系统
CN110598100B (zh) 一种热词推荐方法、装置、设备及存储介质
CN110990708B (zh) 热点事件确定方法、装置、存储介质及电子设备
CN113536805A (zh) 热点事件的舆情分析方法、装置、设备及存储介质
CN111752656A (zh) 信息显示方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190507