CN106649849A - 文本信息库建立方法和装置、以及搜索方法、装置和系统 - Google Patents

文本信息库建立方法和装置、以及搜索方法、装置和系统 Download PDF

Info

Publication number
CN106649849A
CN106649849A CN201611257156.3A CN201611257156A CN106649849A CN 106649849 A CN106649849 A CN 106649849A CN 201611257156 A CN201611257156 A CN 201611257156A CN 106649849 A CN106649849 A CN 106649849A
Authority
CN
China
Prior art keywords
characteristic factor
characteristic
text data
information
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611257156.3A
Other languages
English (en)
Inventor
张昊
王洪远
朱频频
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Original Assignee
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhizhen Intelligent Network Technology Co Ltd filed Critical Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority to CN201611257156.3A priority Critical patent/CN106649849A/zh
Publication of CN106649849A publication Critical patent/CN106649849A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种文本信息库建立方法和装置、文本信息库、搜索方法、装置和系统,解决了现有技术中的文本信息难以实现精准搜索以及搜索效率低的问题。其中的文本信息库建立方法包括:提取多个文本数据中的每个所述文本数据所包括的特征因素以及对应的特征因素取值;以及存储每个所述文本数据所包括的特征因素和特征因素取值与该文本数据之间的对应关系。

Description

文本信息库建立方法和装置、以及搜索方法、装置和系统
技术领域
本发明涉及人工智能技术领域,具体涉及一种文本信息库建立方法和装置、文本信息库、以及搜索方法、装置以及系统。
背景技术
随着网络技术和信息技术的不断发展,很多文本数据都已经上网公开,可供民众自由查询。例如,随着裁判文书的上网公开,民众也可以很方便的在线查阅历史裁判文书。对于法院内部来说,法官在判案的过程中,和当前案件相似的已有裁判案例往往有着极高的参考价值,可以基本避免同案不同判的情况的发生。类似案件的裁判查询对于律师、法官、检察官、法学教师、学者、学生以及从事法律相关的工作人员等都有重要的参考学习价值。
现有的裁判文书网在线提供了一些搜索方式,但这些搜索方式仅支持案由和关键词等有限的搜索条件,搜索条件有限且简单,难于进行精准搜索。同时,由于仍需要人工基于个人经验去寻找判断搜索结果,搜索效率低下,仅能满足一般查询使用,难于满足律师、法官、检察官、法学教师、学者、学生以及从事法律相关的工作人员等相对专业的人士的使用要求。由此可见,急需一种可实现智能、高效且精准的搜索的文本信息库及其建立方式,以及基于这种文本信息库的搜索方式。
发明内容
有鉴于此,本发明实施例提供了一种文本信息库建立方法和装置、文本信息库、搜索方法、装置和系统,解决了现有技术中的文本信息难以实现精准搜索以及搜索效率低的问题。
本发明一实施例提供的一种文本信息库建立方法包括:
提取多个文本数据中的每个所述文本数据所包括的特征因素以及对应的特征因素取值;以及
存储每个所述文本数据所包括的特征因素和特征因素取值与该文本数据之间的对应关系。
本发明一实施例提供的一种文本信息库建立装置包括:
特征提取模块,配置为提取多个文本数据中的每个所述文本数据所包括的特征因素以及对应的特征因素取值;以及
存储模块,配置为存储每个所述文本数据所包括的特征因素和特征因素取值与该文本数据之间的对应关系。
本发明一实施例提供的一种文本信息库包括:
特征因素信息子库,配置为存储多个文本数据中的每个文本数据所包括的特征因素和特征因素取值与该文本数据之间的对应关系。
本发明一实施例提供的一种基于如前所述的文本信息库的搜索方法包括:
识别用户输入的搜索信息中的特征信息,其中所述特征信息包括N1个特征因素和N2个特征因素取值,其中N1+N2=N;以及
基于所述特征因素信息子库,获取与所识别出的特征信息相对应的文本数据;
其中,N、N1和N2均为大于等于0的整数。
本发明一实施例提供的一种基于如前所述的文本信息库的搜索装置包括:
特征识别模块,配置为识别用户输入的搜索信息中的特征信息,其中所述特征信息包括N1个特征因素和N2个特征因素取值,其中N1+N2=N;以及
文本获取模块,配置为基于所述特征因素信息子库,获取与所识别出的特征信息相对应的文本数据;
其中,N、N1和N2均为大于等于0的整数。
本发明一实施例提供的一种搜索系统包括:
如前所述的文本信息库以及如前所述的搜索装置;
其中,所述搜索装置接受用户输入的搜索信息,基于所述文本信息库获取与所述用户输入的搜索信息相对应的文本数据。
本发明实施例提供的一种文本信息库建立方法和装置、文本信息库、搜索方法、装置和系统,通过提取文本数据中的特征因素以及特征因素取值,建立起了特征因素和特征因素取值与文本数据之间的对应关系。这样当用户输入搜索信息后,通过识别搜索信息中的特征因素和特征因素取值即可直接确定所对应的文本数据,不需要对所有文本数据的完整文本内容进行搜索,可智能高效的自动完成整个搜索过程,且搜索结果精准,提高了用户体验。
附图说明
图1所示为本发明一实施例提供的一种文本信息库建立方法的流程示意图。
图2所示为本发明一实施例所提供的文本信息库建立方法中设置特征因素的权重的流程示意图。
图3所示为本发明一实施例所提供的文本信息库建立方法中提取每个领域分类的文本数据中的领域词的流程示意图。
图4所示为本发明一实施例所提供的文本信息库的结构示意图。
图5所示为基于本发明一实施例所提供的文本信息库的搜索方法的流程示意图。
图6所示为本发明一实施例所提供的搜索方法中获取与所识别出的特征信息相对应的文本数据的流程示意图。
图7所示为本发明一实施例所提供的搜索方法中获取与所识别出的特征信息相对应的文本数据的流程示意图。
图8所示为本发明一实施例所提供的搜索方法的流程示意图。
图9所示为本发明一实施例提供的一种文本信息库建立装置的结构示意图。
图10所示为本发明一实施例提供的一种文本信息库建立装置的结构示意图。
图11所示为基于本发明一实施例提供文本信息库的搜索装置的结构示意图。
图12所示为基于本发明一实施例提供文本信息库的搜索装置的结构示意图。
图13所示为本发明一实施例提供的一种搜索系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1所示为本发明一实施例提供的一种文本信息库建立方法的流程示意图。如图1所示,该文本信息库建立方法包括如下步骤:
步骤101:提取多个文本数据中的每个文本数据所包括的特征因素以及对应的特征因素取值。
特征因素为用于表征文本数据的特性的标识性信息。例如,当文本数据为裁判文书时,文本数据就可包括以下特征因素中的一种或多种:上诉人/被告姓名、辩护人姓名、辩护人律师事务所、上诉人/被告是否少数民族、上诉人/被告性别、上诉人/被告年龄、当事人出生年月、上诉理由、犯罪情节、犯罪动机、完成形态、犯罪时间、犯罪次数、认罪态度情况、是否如实供述犯罪事实、有无悔罪表现、立功表现、共犯中的犯罪作用、特情引诱、毒品类型、毒品数量、毒品纯度、涉案毒资、证人有无主观意识、对社会危害情况、犯罪事实是否清楚、量刑是否适当、证据是否充分、审判程序是否合法、定罪是否准确、公安机关办案是否合法、使用法律是否正确和是否维持原判。
应当理解,文本数据的具体内容并不限于裁判文书。同时,根据文本数据的内容不同,所可提取的特征因素的也有所不同,例如当文本数据为专利申请文件时,所可提取的特征因素就可包括“申请日”、“法律状态”以及“申请人”等专利申请文件的特征信息。本发明对文本数据和特征因素的具体形式不做限定。
特征因素取值为特征因素的具体取值,特征因素取值的具体内容与特征因素本身的含义相关。例如,对于特征因素“毒品类型”,所对应的特征因素取值就可包括“海洛因”、“冰毒”和“大麻”等多种取值;对于特征因素“证人有无主观意识”,所对应的特征因素取值就可仅包括“是”和“否”两种取值。特征因素取值的具体内容可以是离散的值也可以是连续的取值区间,例如特征因素“犯罪次数”所对应的取值就可为诸如“初犯”和“再犯”等离散的值,而特征因素“犯罪时间”所对应的取值就可为“2003年11月26日8时至2003年11月26日9时”的取值区间。然而,本发明对特征因素取值的具体内容和形式同样不做限定。
步骤102:存储每个文本数据所包括的特征因素和特征因素取值与该文本数据之间的对应关系。
由此便形成了存储有每个文本数据所包括的特征因素和特征因素取值与该文本数据之间的对应关系的文本信息库。通过存储这种对应关系,使得每个文本数据都可被自身所包括的特征因素和特征因素取值而表征。这样当基于以上步骤所形成的文本信息库进行搜索时,通过识别用户输入的搜索信息中的特征因素和特征因素取值即可直接确定所对应的文本数据,不需要对所有文本数据的完整文本内容进行搜索,可智能高效的自动完成整个搜索过程,且搜索结果精准,提高了用户体验。
在本发明一实施例中,由于文本数据已经利用特征因素和特征因素取值来表征,因此文本数据本身并不一定需要存储在该文本信息库中。文本信息库中可仅存储所有文本数据的一个列表或索引,以对应这些文本数据在另一个存储端中的存储位置。这样当用户通过搜索过程获取到了对应的文本数据时,其实是通过该存储端获取到文本数据本身。在本发明另一实施例中,文本数据也可以直接存储在文本信息库中。本发明对文本数据本身的存储位置并不做限定。
基于以上方式所建立的文本信息库,在根据用户的搜索信息来搜索文本数据时,其实是将用户的搜索信息中的特征因素和/或特征因素取值与文本信息库中不同文本数据的特征因素和/或特征因素取值进行匹配,相似度越高的文本数据则越接近用户所想要的搜索结果。但由于在文本信息库建立过程中所提取到的特征因素和特征因素取值有很多,而其中的每个特征因素在体现文本数据的特征时所起到的重要性又有所不同,因此在本发明一实施例中,要在建立文本信息库时进一步设置并存储所提取的每个特征因素的权重。这样权重较低的特征因素及其对应的特征因素取值对于用户的搜索信息与文本数据之间的相似度贡献就较少,而权重较高的特征因素及其对应的特征因素取值对于用户的搜索信息与文本数据之间的相似度贡献就较大,从而可实现更加智能更加精准的搜索过程。
图2所示为本发明一实施例所提供的文本信息库建立方法中设置特征因素的权重的流程示意图。文本数据进一步包括用于衡量特征因素权重的目标特征信息,如图2所示,该设置特征因素权重的流程可包括如下步骤:
步骤201:根据多个文本数据各自所包括的目标特征信息将多个文本数据分为多个目标特征分类。
以文本数据为裁判文书为例,目标特征信息就可为裁判文书中的判决结果信息,这样该目标特征分类的获取过程其实就是根据判结结果信息的量刑程度将多个文本数据分为多个目标特征分类。
步骤202:统计每个目标特征分类中的文本数据所包括的特征因素以及对应的特征因素取值。
通过该统计过程便可得出每个目标特征分类中所包括的特征因素和特征因素取值,在不同的目标特征分类中可能包括不同的特征因素,出现在多个目标特征分类中的同一个特征因素也可能有不同的特征因素取值。
步骤203:基于统计结果以及多个目标特征分类,通过分类模型计算多个文本数据中所包括的每个特征因素对目标特征信息的影响权重,将该影响权重作为特征因素的权重。
通过向分类模型中输入该统计结果以及该多个目标特征分类即可得到每个特征因素的权重。例如,当一个特征因素平均地出现在不同目标特征分类中且存在不同取值时,则说明该特征因素的取值变化对于目标特征信息的影响并不大,因此该特征因素的权重就较低。而当一个特征因素的某一个取值集中地出现在某一个目标特征分类时,则说明该特征因素的不同取值会对目标特征信息产生较大影响,因此该特征因素的权重就较高。分类模型可采用softmax分类模型、决策树分类模型或其他形式的分类模型实现,本发明对分类模型的具体选择不做限定。
在本发明一实施例中,用于建立文本信息库的多个文本数据被预先划分为了至少一个领域分类,那么在建立文本信息库的同时可进一步提取并存储每个领域分类的文本数据中的领域词,以便于在搜索的过程中可通过识别搜索信息中的领域词而快速地缩小所要搜索的文本数据的范围,进一步提高搜索效率。
在本发明一实施例中,文本数据为裁判文书,领域分类为案由分类。即,裁判文书预先根据案由的不同被划分为了至少一个案由分类。该根据案由进行分类的过程一般在法院上网公布裁判文书时就已完成。
图3所示为本发明一实施例所提供的文本信息库建立方法中提取每个领域分类的文本数据中的领域词的流程示意图。如图3所示,该提取领域词的流程可包括如下步骤:
步骤301:基于所接收的多个文本数据获取通用新词候选词串。
在本发明一实施例中,通用新词候选词串可采用以下一种或多种方法的结合来获取:内部构成语法规则方法、前后缀规则方法和特征统计方法。
步骤302:采用统计的方法判断通用新词候选词串是否为领域词候选词串。
具体而言,该领域词候选词串的判断过程可包括如下步骤:采用包括通用新词候选词串的词典对所接收的多个文本数据分别进行分词处理,得到各领域分类的词语集;计算通用新词候选词串在每个领域分类的词语集中出现的概率,并将最大出现概率对应的领域分类作为该通用新词候选词串的目标领域分类;以及计算通用新词候选词串在至少部分领域分类的词语集中分布的信息熵,当信息熵小于或等于信息熵阈值时,通用新词候选词串为目标领域分类的领域词候选词串。
在本发明一实施例中,信息熵阈值的取值范围可以为:1.5~2.5,如:1.5、2.0或2.5等。
在本发明一实施例中,设a为通用新词候选词串,则该通用新词候选词串在至少部分预先设定的领域分类中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n为至少部分预先设定的领域分类的个数,p1、p2、…、pn为该通用新词候选词串a在该n个领域分类的词语集中的出现概率。
由于垃圾词串和通用词均在各个领域分类中出现的频率相近,而领域词出现的概率较小,并且领域词会在不同的领域分类有明显的偏重,甚至只出现在对应领域分类。本发明实施例根据这一原理,在现有的通用新词发现方法发现的通用新词候选词的基础上,将得到的通用新词候选词串进一步处理,通过计算各个通用新词候选词串在所有领域分类中分布上的信息熵,信息熵越大表明该通用新词候选词串在各个领域分类上的分布越平衡,反之,表明该通用新词候选词串的分布偏重某领域分类。之后,通过确定一个合适的信息熵阈值h过滤掉部分垃圾词串和通用词串,若H(a)>h时,则通用新词候选词串a为垃圾词串或通用词,反之,则通用新词候选词串a为对应出现概率最大的领域的领域词候选词串,从而筛选出领域词候选词串。在一具体实施例中,若H(a)=h,则通用新词候选词串a可以为垃圾词串或通用词,在另一具体实施例中,若H(a)=h,通用新词候选词串a也可以为对应出现概率最大的领域的领域词候选词串。
步骤303:当通用新词候选词串为领域词候选词串时,通过相似度计算判断领域词候选词串是否为领域词。
具体而言,该领域词的判断过程可包括如下步骤:从领域词候选词串对应的领域分类的文本数据中选择全部或部分的其他词串作为种子词串;计算领域词候选词串与每个种子词串的相似度;以及当最大相似度大于相似度阈值时,领域词候选词串为领域词。
在本发明一实施例中,上述领域词候选词串与种子词串之间的相似度计算过程可通过word2vec模型实现。具体而言,可将领域词候选词串输入到word2vec模型得到领域词候选词串的词向量,将每个种子词串输入到word2vec模型得到相应的每个种子词串的词向量,再计算该领域词候选词串的词向量与每个种子词串的词向量的之间的语义相似度。
在本发明一实施例中,相似度阈值的取值范围可以为0.6-0.8,如:0.6、0.7或0.8等。优选的,判定为领域词的领域词候选词串后续也可以作为相应领域的种子词串,这样做可以对每个领域分类的语料进行及时的完善。
在本发明一实施例中,由于在领域词候选词串的判断过程中已经通过分词处理得到了各领域分类的词语集,因此在领域词的判断过程中可直接从领域词候选词串对应的领域分类的词语集中选择全部或部分的其他词串作为种子词串,从而进一步降低了种子词串选取的工作量,提高了整个领域词获取过程的效率。
在本发明一实施例中,在采用统计的方法判断通用词候选词串是否为领域词候选词串之前,还要对预先设定的领域分类中的文本数据进行预处理,例如,将预先设定的领域分类中的文本数据的格式统一为文本格式;去除含有敏感词的文本数据,根据剩余的文本数据料中所含有的断句标点将剩余的文本数据分割成句。由于已对文本数据统一格式并去除敏感词和断句,这样做便于后续对每个领域的文本数据进行分词处理,可提高分词处理的效率和准确率。
由此可见,本发明实施例是先基于统计的思想寻找领域词候选词串,而未考虑词与领域的语义关系;然后为了提高确定领域词的准确度,再在语义层面进一步筛选出领域词。即,将利用word2vec模型计算该领域词候选词串与某一领域分类的文本数据中的各词串之间的语义相似度,相似度越大越则越有可能是对应领域分类的领域词。之后,领域词逐渐增加,可以逐渐完善领域词典。
在本发明一实施例中,考虑到用户输入的搜索信息中的文本内容可能与文本信息库中已存储的特征因素、特征因素取值或领域词并不完全对应,为了进一步提高搜索结果的准确度,还可在建立文本信息库时设置并存储领域词的同义词和/或特征因素的同义词和/或特征因素取值的同义词。这样即使搜索信息中的文本内容与文本信息库中特征因素、特征因素取值或领域词的不完全对应,只要该文本内容与文本信息库中的特征因素、特征因素取值或领域词为同义词,也可视为匹配到了该特征因素、特征因素取值或领域词。
应当理解,领域词的同义词、特征因素的同义词或特征因素取值的同义词可通过人工的方式设置,例如由业务专家根据实际的工作经验设置文本信息库中已存储的领域词、特征因素和特征因素取值的同义词,也可采用其他的方式设置。本发明对领域词的同义词、特征因素的同义词以及特征因素取值的同义词的具体设置方式不做限定。
由此可见,基于以上实施例所述的文本信息库建立方法,所建立的文本信息库的结构可如图4所示。该文本信息库40可包括:
特征因素信息子库41,配置为存储多个文本数据中的每个文本数据所包括的特征因素和特征因素取值与该文本数据之间的对应关系。
特征因素权重子库42,配置为存储特征因素信息子库41中每个特征因素的权重。其中,特征因素的权重为特征因素对文本数据中的目标特征信息的影响权重。
领域词子库43,配置为存储至少一个领域分类中每个领域分类的领域词。其中,用于建立文本信息库40的多个文本数据被预先划分为了该至少一个领域分类。
同义词子库44,配置为存储领域词的同义词和/或特征因素的同义词和/或特征因素取值的同义词。
在本发明一实施例中,文本数据为裁判文书,目标特征信息为判决结果信息,领域分类为案由分类。文本数据可包括以下特征因素中的一种或多种:上诉人/被告姓名、辩护人姓名、辩护人律师事务所、上诉人/被告是否少数民族、上诉人/被告性别、上诉人/被告年龄、当事人出生年月、上诉理由、犯罪情节、犯罪动机、完成形态、犯罪时间、犯罪次数、认罪态度情况、是否如实供述犯罪事实、有无悔罪表现、立功表现、共犯中的犯罪作用、特情引诱、毒品类型、毒品数量、毒品纯度、涉案毒资、证人有无主观意识、对社会危害情况、犯罪事实是否清楚、量刑是否适当、证据是否充分、审判程序是否合法、定罪是否准确、公安机关办案是否合法、使用法律是否正确和是否维持原判。
基于如图4所示的文本信息库40,即可实现智能精准的搜索体验。具体而言,特征因素信息子库41的存在使得每个文本数据都可被自身所包括的特征因素和特征因素取值而表征。这样通过识别用户输入的搜索信息中的特征因素和特征因素取值即可直接确定所对应的文本数据,不需要对所有文本数据的完整文本内容进行搜索,可智能高效的自动完成整个搜索过程,且搜索结果精准,提高了用户体验。特征因素权重子库42的存在使得权重较高的特征因素及其特征因素取值可对搜索过程中的相似度计算起到较大的影响作用,从而使得搜索结果更加精准且智能。领域词子库43的存在使得在搜索的过程中可通过识别搜索信息中的领域词而快速地缩小所要搜索的文本数据的范围,进一步提高搜索效率。同义词子库44的存在使得用户的搜索信息实现了在语义上的扩展,避免了漏检的情况发生,进一步提高搜索结果的准确度。
但应当理解,尽管在图4所示的实施例中,文本信息库40同时具备了特征因素信息子库41、特征因素权重子库42、领域词子库43以及同义词子库44,但其实特征因素信息子库41、特征因素权重子库42、领域词子库43以及同义词子库44之间并不存在依存关系。例如在本发明一实施例中,文本数据的内容比较单一且并不存在领域分类时,所建立的文本信息库40中就可不包括领域词子库43。即,文本信息库40中具体包括哪些子库可根据具体的业务场景需求而定,本发明对文本信息库40中具体包括哪些子库并不做限定。
图5所示为基于本发明一实施例所提供的文本信息库的搜索方法的流程示意图。该文本信息库中包括特征因素信息子库,如图5所示,该搜索方法可包括如下步骤:
步骤501:识别用户输入的搜索信息中的特征信息,其中特征信息包括N1个特征因素和N2个特征因素取值,其中N1+N2=N,N、N1和N2均为大于等于0的整数。
用户输入的搜索信息中可能并不完整的包括特征因素及其对应的特征因素取值,例如对于特征因素“毒品类型”,用户的搜索条件可能就仅为“海洛因”,而并不会刻意地包括“毒品类型”四个字。再例如,用户输入的搜索信息为“毒品数量50g海洛因”,那么该搜索信息中就包括了1个特征因素“毒品数量”以及两个特征因素取值“50g”和“海洛因”。
识别的具体过程可基于特征因素信息子库实现,例如,以特征因素信息子库中所包括的特征因素和特征因素取值为识别目标,以字符串匹配的方式识别搜索信息中所包括的特征因素和特征因素取值。
步骤502:基于特征因素信息子库,获取与所识别出的特征信息相对应的文本数据。
由于文本信息库中包括了特征因素信息子库,而该特征因素信息子库中又存储有每个文本数据所包括的特征因素和特征因素取值与该文本数据之间的对应关系,因此根据所识别出的特征信息中所包括的特征因素以及特征因素取值便可直接确定匹配的文本数据。
具体而言,如图6所示,与所识别出的特征信息相对应的文本数据可通过如下步骤获取:
步骤5021:计算特征因素信息子库中的M个文本数据各自在特征信息所包括的N1个特征因素和N2个特征因素取值上与特征信息之间的N个特征相似度,其中M为大于等于1的整数。
根据搜索信息所识别出的特征信息中包括N1个特征因素和N2个特征因素取值,因此就要计算文本信息库中的文本数据在该N1个特征因素和N2个特征因素取值上分别与搜索信息之间的N个特征相似度。
步骤5022:根据M个文本数据各自对应的N个特征相似度确定搜索信息与M个文本数据之间的M个搜索相似度。
由于该N个特征相似度仅为在分立的特征因素和特征因素取值上的相似度,为了获取搜索信息与文本数据之间的搜索相似度,就需要将这N个特征相似度进行整合。例如,将一个文本数据与搜索信息的特征信息之间的N个特征相似度求平均值,将该平均值作为该文本数据与搜索信息之间的搜索相似度。
步骤5023:将M个文本数据按照M个搜索相似度排序并将排序结果呈现给用户。
在本发明一实施例中,可按照相似度从高到低的顺序呈现文本数据,条目较多时还可支持分页展示。在一进一步实施例中,每个条目可直接链接至文本数据本身。同时该呈现页面还可支持接收用户的评价反馈,并根据反馈智能调优。
在本发明一实施例中,文本信息库进一步包括特征因素权重子库,特征因素权重子库中存储有特征因素信息子库中每个特征因素的权重。此时,如图7所示,与所识别出的特征信息相对应的文本数据就可通过如下步骤获取:
步骤5020:基于特征因素权重子库获取所识别出的N1个特征因素的权重以及N2个特征因素取值所分别对应的N2个特征因素的权重。
步骤5021’:计算特征因素信息子库中的M个文本数据各自在特征信息所包括N1个特征因素和N2个特征因素取值上与特征信息之间的N个特征相似度,其中M为大于等于1的整数。
步骤5022’:基于所获取的特征因素的权重以及M个文本数据各自对应的N个特征相似度,以加权求和的方式计算出搜索信息与M个文本数据之间的M个搜索相似度。
由于每个特征因素的权重不同,因此在将M个文本数据各自对应的N个特征相似度整合成M个搜索相似度时就要将权重计算进去,例如以加权求和的方式。
步骤5023’:将M个文本数据按照M个搜索相似度排序并将排序结果呈现给用户。
通过采用这样的搜索方式,可使得权重较高的特征因素及其特征因素取值可对搜索过程中的相似度计算起到较大的影响作用,从而使得搜索结果更加精准且智能。
在本发明一实施例中,用于建立文本信息库的多个文本数据被预先划分为至少一个领域分类,文本信息库进一步包括了领域词子库,领域词子库存储有该至少一个领域分类中每个领域分类的领域词。此时,如图8所示,该搜索方法可包括如下步骤:
步骤500:基于领域词子库中所包括的领域词,对搜索信息进行分词处理,识别搜索信息中的领域词。
步骤501’:识别用户输入的搜索信息中的特征信息,其中特征信息包括N1个特征因素和N2个特征因素取值,其中N1+N2=N,N、N1和N2均为大于等于0的整数。
步骤502’:基于特征因素信息子库,在识别出的领域词所对应的领域分类所包括的文本数据中,获取与所识别出的特征信息相对应的文本数据。
这样在根据搜索信息来搜索文本信息库中所涉及到的文本数据时,搜索的范围就被缩小到了所识别出的领域词所对应的领域分类的文本数据中,从而减少了整个搜索过程的工作量,进一步提高了搜索效率。
在本发明一实施例中,文本信息库进一步包括同义词子库,同义词子库存储有领域词的同义词和/或特征因素的同义词和/或特征因素取值的同义词。这样在识别用户输入的搜索信息中的特征信息时,若搜索信息中所包括的特征因素和/或特征因素取值在同义词子库中存在同义词,则可将同义词也作为识别出的特征因素和/或特征因素取值,由此实现了搜索信息在语义上的扩展,避免了漏检的情况发生。
同时,在计算特征因素信息子库中的M个文本数据各自在特征信息所包括N1个特征因素和N2个特征因素取值上与特征信息之间的N个特征相似度时,若识别出的一个特征因素或特征因素取值与特征因素信息子库中一个文本数据的一个特征因素或特征因素取值属于同义词,则直接认为该文本数据在该识别出的特征因素或特征因素取值上的特征相似度为100%。这样即使搜索信息中的特征因素或特征因素取值与文本数据中的特征因素或特征因素取值不完全对应,只要二者属于同义词子库中的同义词,就认为在该特征因素或特征因素取值上搜索信息与该文本数据的相似度为100%,由此避免了漏检的情况发生。
此外,若识别出的领域词在同义词子库中存在同义词,则基于特征因素信息子库,在识别出的领域词以及该同义词所对应的领域分类所包括的文本数据中,获取与所识别出的特征信息相对应的文本数据。由于领域词子库的建立过程可能存在的局限性,虽然领域词A和领域词B对应了不同的领域分类,但其实这些领域分类可能仅是因为领域词的形式不同而被划分为了不同的领域分类,这种情况下领域词A和领域词B很可能属于同义词。通过基于包括领域词的同义词的同义词子库进行上述搜索步骤,可实现领域分类在语义上的扩展,进一步避免了漏检的情况发生。
图9所示为本发明一实施例提供的一种文本信息库建立装置的结构示意图。如图9所示,该文本信息库建立装置90包括:特征提取模块91和存储模块92。特征提取模块91配置为提取多个文本数据中的每个文本数据所包括的特征因素以及对应的特征因素取值。存储模块92配置为存储每个文本数据所包括的特征因素和特征因素取值与该文本数据之间的对应关系。
通过该文本信息库建立装置90便形成了存储有每个文本数据所包括的特征因素和特征因素取值与该文本数据之间的对应关系的文本信息库。通过存储这种对应关系,使得每个文本数据都可被自身所包括的特征因素和特征因素取值而表征。这样当基于以上步骤所形成的文本信息库进行搜索时,通过识别用户输入的搜索信息中的特征因素和特征因素取值即可直接确定所对应的文本数据,不需要对所有文本数据的完整文本内容进行搜索,可智能高效的自动完成整个搜索过程,且搜索结果精准,提高了用户体验。
在本发明一实施例中,如图10所示,该文本信息库建立装置90可进一步包括:权重设置模块93,配置为设置所提取的每个特征因素的权重;其中,存储模块92进一步配置为存储所提取的每个特征因素的权重。通过设置每个特征因素的权重,使得权重较高的特征因素及其特征因素取值可对搜索过程中的相似度计算起到较大的影响作用,从而使得搜索结果更加精准且智能。
在本发明一实施例中,文本数据可包括目标特征信息,如图10所示,权重设置模块93可包括:分类单元931、统计单元932以及权重获取单元933。分类单元931配置为根据多个文本数据各自所包括的目标特征信息将多个文本数据分为多个目标特征分类。统计单元932配置为统计每个目标特征分类中的文本数据所包括的特征因素以及对应的特征因素取值。权重获取单元933配置为基于统计单元932的统计结果以及分类单元931的分类结果,通过分类模型计算多个文本数据中所包括的每个特征因素对目标特征信息的影响权重,将该影响权重作为特征因素的权重。
在本发明一实施例中,文本数据可为裁判文书,目标特征信息可为判决结果信息;其中,分类单元931可进一步配置为根据多个文本数据各自所包括的目标特征信息将多个文本数据分为多个目标特征分类。
在本发明一实施例中,文本数据可包括以下特征因素中的一种或多种:上诉人/被告姓名、辩护人姓名、辩护人律师事务所、上诉人/被告是否少数民族、上诉人/被告性别、上诉人/被告年龄、当事人出生年月、上诉理由、犯罪情节、犯罪动机、完成形态、犯罪时间、犯罪次数、认罪态度情况、是否如实供述犯罪事实、有无悔罪表现、立功表现、共犯中的犯罪作用、特情引诱、毒品类型、毒品数量、毒品纯度、涉案毒资、证人有无主观意识、对社会危害情况、犯罪事实是否清楚、量刑是否适当、证据是否充分、审判程序是否合法、定罪是否准确、公安机关办案是否合法、使用法律是否正确和是否维持原判。
在本发明一实施例中,多个文本数据预先划分为至少一个领域分类。如图10所示,该文本信息库建立装置90可进一步包括:领域词提取模块94,配置为提取每个领域分类的文本数据中的领域词;其中,存储模块92进一步配置为存储所提取的每个领域分类的领域词。通过提取各领域分类的领域词,使得在搜索的过程中可通过识别搜索信息中的领域词而快速地缩小所要搜索的文本数据的范围,进一步提高搜索效率。
在本发明一实施例中,如图10所示,领域词提取模块94包括:通用新词获取单元941、第一判断单元942以及第二判断单元943。通用新词获取单元941配置为基于所接收的多个文本数据获取通用新词候选词串。第一判断单元942配置为采用统计的方法判断通用新词候选词串是否为领域词候选词串。第二判断单元943配置为当通用新词候选词串为领域词候选词串时,通过相似度计算判断领域词候选词串是否为领域词。
在本发明一实施例中,通用新词获取单元941可采用以下一种或多种方法的结合来获取通用新词候选词串:内部构成语法规则方法、前后缀规则方法和特征统计方法。在本发明一实施例中,第一判断单元942可包括:分词子单元、目标领域获取子单元以及第一判定子单元。分词子单元配置为采用包括通用新词候选词串的词典对所接收的多个文本数据分别进行分词处理,得到各领域分类的词语集。目标领域获取子单元配置为计算通用新词候选词串在每个领域分类的词语集中出现的概率,并将最大出现概率对应的领域分类作为该通用新词候选词串的目标领域分类。第一判定子单元配置为计算通用新词候选词串在至少部分领域分类的词语集中分布的信息熵,当信息熵小于或等于信息熵阈值时,通用新词候选词串为目标领域分类的领域词候选词串。
由于垃圾词串和通用词均在各个领域分类中出现的频率相近,而领域词出现的概率较小,并且领域词会在不同的领域分类有明显的偏重,甚至只出现在对应领域分类。本发明实施例根据这一原理,在现有的通用新词发现方法发现的通用新词候选词的基础上,将得到的通用新词候选词串进一步处理,通过计算各个通用新词候选词串在所有领域分类中分布上的信息熵,信息熵越大表明该通用新词候选词串在各个领域分类上的分布越平衡,反之,表明该通用新词候选词串的分布偏重某领域分类。之后,通过确定一个合适的信息熵阈值h过滤掉部分垃圾词串和通用词串,若H(a)>h时,则通用新词候选词串a为垃圾词串或通用词,反之,则通用新词候选词串a为对应出现概率最大的领域的领域词候选词串,从而筛选出领域词候选词串。在一具体实施例中,若H(a)=h,则通用新词候选词串a可以为垃圾词串或通用词,在另一具体实施例中,若H(a)=h,通用新词候选词串a也可以为对应出现概率最大的领域的领域词候选词串。
在本发明一实施例中,第二判断单元943可包括:种子词获取子单元、相似度计算子单元以及第二判定子单元。种子词获取子单元配置为从领域词候选词串对应的领域分类的词语集中选择全部或部分的其他词串作为种子词串。相似度计算子单元配置为计算领域词候选词串与每个种子词串的相似度。第二判定子单元配置为当最大相似度大于相似度阈值时,领域词候选词串为领域词。
在本发明另一实施例中,第二判断单元943可包括:种子词获取子单元、相似度计算子单元以及第二判定子单元。种子词获取子单元配置为从领域词候选词串对应的领域分类的文本数据中选择全部或部分的其他词串作为种子词串。相似度计算子单元配置为计算领域词候选词串与每个种子词串的相似度。第二判定子单元配置为当最大相似度大于相似度阈值时,领域词候选词串为领域词。
由此可见,本发明实施例所提供的领域词提取模块94是先基于统计的思想寻找领域词候选词串,而未考虑词与领域的语义关系;然后为了提高确定领域词的准确度,再在语义层面进一步筛选出领域词。即,将利用word2vec模型计算该领域词候选词串与某一领域分类的文本数据中的各词串之间的语义相似度,相似度越大越则越有可能是对应领域分类的领域词。之后,领域词逐渐增加,可以逐渐完善领域词典。
在本发明一实施例中,种子词获取子单元可进一步配置为,将判定为领域词的领域词候选词串也作为相应领域的种子词串,这样可以对每个领域分类的语料进行及时的完善。
在本发明一实施例中,如图10所示,该文本信息库建立装置90可进一步包括:同义词设置模块95,配置为设置并通过存储模块92存储领域词的同义词和/或特征因素的同义词和/或特征因素取值的同义词。这样所建立的文本信息库,即使搜索信息中的文本内容与文本信息库中特征因素、特征因素取值或领域词的不完全对应,只要该文本内容与文本信息库中的特征因素、特征因素取值或领域词为同义词,也可视为匹配到了该特征因素、特征因素取值或领域词,进一步提高了所建立的文本信息库的搜索结果的准确度。
在本发明一实施例中,文本数据可为裁判文书,领域分类可为案由分类。
图11所示为基于本发明一实施例提供文本信息库的搜索装置的结构示意图。如图11所示,该搜索装置110包括:特征识别模块111和文本获取模块112。特征识别模块111配置为识别用户输入的搜索信息中的特征信息,其中特征信息包括N1个特征因素和N2个特征因素取值,其中N1+N2=N,N、N1和N2均为大于等于0的整数。文本获取模块112配置为基于特征因素信息子库,获取与所识别出的特征信息相对应的文本数据。
由于文本信息库中包括了特征因素信息子库,而该特征因素信息子库中又存储有每个文本数据所包括的特征因素和特征因素取值与该文本数据之间的对应关系,因此根据所识别出的特征信息中所包括的特征因素以及特征因素取值便可直接确定匹配的文本数据。
在本发明一实施例中,特征识别模块111进一步配置为,以特征因素信息子库中所包括的特征因素和特征因素取值为识别目标,以字符串匹配的方式识别搜索信息中所包括的特征因素和特征因素取值。
在本发明一实施例中,如图12所示,文本获取模块112包括:特征相似度计算单元1121、搜索相似度计算单元1122以及返回单元1123。特征相似度计算单元1121配置为计算特征因素信息子库中的M个文本数据各自在特征信息所包括的N1个特征因素和N2个特征因素取值上与特征信息之间的N个特征相似度,其中M为大于等于1的整数。搜索相似度计算单元1122配置为根据M个文本数据各自对应的N个特征相似度确定搜索信息与M个文本数据之间的M个搜索相似度。返回单元1123配置为将M个文本数据按照M个搜索相似度排序并将排序结果呈现给用户。
在本发明一实施例中,文本信息库包括特征因素权重子库,特征因素权重子库配置为存储特征因素信息子库中每个特征因素的权重。此时,如图12所示,文本获取模块112包括:权重识别单元1120、特征相似度计算单元1121、搜索相似度计算单元1122以及返回单元1123。权重识别单元1120配置为基于特征因素权重子库获取所识别出的N1个特征因素的权重以及N2个特征因素取值所分别对应的N2个特征因素的权重。特征相似度计算单元1121配置为计算特征因素信息子库中的M个文本数据各自在特征信息所包括N1个特征因素和N2个特征因素取值上与特征信息之间的N个特征相似度,其中M为大于等于1的整数。搜索相似度计算单元1122配置为基于所获取的特征因素的权重以及M个文本数据各自对应的N个特征相似度,以加权求和的方式计算出搜索信息与M个文本数据之间的M个搜索相似度。返回单元1123配置为将M个文本数据按照M个搜索相似度排序并将排序结果呈现给用户。通过采用这样的搜索方式,可使得权重较高的特征因素及其特征因素取值可对搜索过程中的相似度计算起到较大的影响作用,从而使得搜索结果更加精准且智能。
在本发明一实施例中,多个文本数据预先划分为至少一个领域分类,文本信息库包括领域词子库,领域词子库配置为存储至少一个领域分类中每个领域分类的领域词。此时,如图12所示,该搜索装置110进一步包括:领域词识别模块113,配置为基于领域词子库中所包括的领域词,对搜索信息进行分词处理,识别搜索信息中的领域词。其中,文本获取模块112进一步配置为:基于特征因素信息子库,在识别出的领域词所对应的领域分类所包括的文本数据中,获取与所识别出的特征信息相对应的文本数据。这样在根据搜索信息来搜索文本信息库中所涉及到的文本数据时,搜索的范围就被缩小到了所识别出的领域词所对应的领域分类的文本数据中,从而减少了整个搜索过程的工作量,进一步提高了搜索效率。
在本发明一实施例中,文本信息库包括同义词子库,同义词子库配置为存储领域词的同义词和/或特征因素的同义词和/或特征因素取值的同义词。此时,特征识别模块111进一步配置为,若搜索信息中所包括的特征因素和/或特征因素取值在同义词子库中存在同义词,则将同义词也作为识别出的特征因素和/或特征因素取值。这样在识别用户输入的搜索信息中的特征信息时,若搜索信息中所包括的特征因素和/或特征因素取值在同义词子库中存在同义词,则可将同义词也作为识别出的特征因素和/或特征因素取值,由此实现了搜索信息在语义上的扩展,避免了漏检的情况发生。
同时,特征相似度计算单元1121可进一步配置为:若特征识别模块111识别出的一个特征因素或特征因素取值与特征因素信息子库中一个文本数据的一个特征因素或特征因素取值属于同义词,则直接认为该文本数据在该识别出的特征因素或特征因素取值上的特征相似度为100%。这样即使搜索信息中的特征因素或特征因素取值与文本数据中的特征因素或特征因素取值不完全对应,只要二者属于同义词子库中的同义词,就认为在该特征因素或特征因素取值上搜索信息与该文本数据的相似度为100%,由此避免了漏检的情况发生。
此外,文本获取模块112进一步配置为:若领域词识别模块113识别出的领域词在同义词子库中存在同义词,则基于特征因素信息子库,在领域词识别模块113识别出的领域词以及该同义词所对应的领域分类所包括的文本数据中,获取与所识别出的特征信息相对应的文本数据。由于领域词子库的建立过程可能存在的局限性,虽然领域词A和领域词B对应了不同的领域分类,但其实这些领域分类可能仅是因为领域词的形式不同而被划分为了不同的领域分类,这种情况下领域词A和领域词B很可能属于同义词。通过采用基于同义词子库的文本获取模块112,可实现领域分类在语义上的扩展,进一步避免了漏检的情况发生。
应当理解,上述实施例所提供的文本信息库建立装置90或搜索装置110中记载的每个模块或单元都与前述的一个方法步骤相对应。由此,前述的方法步骤描述的操作和特征同样适用于文本信息库建立装置90或搜索装置110及其中所包含的对应的模块和单元,重复的内容在此不再赘述。
本发明的教导还可以实现为一种计算机可读存储介质的计算机程序产品,包括计算机程序代码,当计算机程序代码由处理器执行时,其使得处理器能够按照本发明实施方式的方法来实现如本文实施方式所述的文本信息库建立方法或搜索方法。计算机存储介质可以为任何有形媒介,例如软盘、CD-ROM、DVD、硬盘驱动器、甚至网络介质等。
应当理解,虽然以上描述了本发明实施方式的一种实现形式可以是计算机程序产品,但是本发明的实施方式的方法或装置可以被依软件、硬件、或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的方法和设备可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的方法和装置可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
应当理解,尽管在上文的详细描述中提及了装置的若干模块或单元,但是这种划分仅仅是示例性而非强制性的。实际上,根据本发明的示例性实施方式,上文描述的两个或更多模块/单元的特征和功能可以在一个模块/单元中实现,反之,上文描述的一个模块/单元的特征和功能可以进一步划分为由多个模块/单元来实现。此外,上文描述的某些模块/单元在某些应用场景下可被省略。
图13所示为本发明一实施例提供的一种搜索系统的结构示意图。如图13所示,该搜索系统包括如图4所示的文本信息库以及如图12所示的搜索装置。其中,搜索装置接受用户输入的搜索信息,基于文本信息库获取与用户输入的搜索信息相对应的文本数据。
应当理解,由于文本信息库中具体包括哪些子库可根据具体的业务场景需求而定,因此该搜索系统中的文本信息库并不限定于图4所示的文本信息库。同时,搜索装置也可根据文本信息库的变化而调整,也并不限于图12所示的搜索装置。本发明对此不做限定。
应当理解,为了不模糊本发明的实施方式,说明书仅对一些关键、未必必要的技术和特征进行了描述,而可能未对一些本领域技术人员能够实现的特征做出说明。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。

Claims (38)

1.一种文本信息库建立方法,其特征在于,包括:
提取多个文本数据中的每个所述文本数据所包括的特征因素以及对应的特征因素取值;以及
存储每个所述文本数据所包括的特征因素和特征因素取值与该文本数据之间的对应关系。
2.根据权利要求1所述的方法,其特征在于,进一步包括:
设置并存储所提取的每个所述特征因素的权重。
3.根据权利要求2所述的方法,其特征在于,所述文本数据进一步包括目标特征信息;其中,所述设置所提取的每个所述特征因素的权重包括:
根据所述多个文本数据各自所包括的目标特征信息将所述多个文本数据分为多个目标特征分类;
统计每个所述目标特征分类中的所述文本数据所包括的特征因素以及对应的特征因素取值;
基于所述统计结果以及所述多个目标特征分类,通过分类模型计算所述多个文本数据中所包括的每个特征因素对所述目标特征信息的影响权重;以及
将所述影响权重作为所述特征因素的权重。
4.根据权利要求3所述的方法,其特征在于,所述文本数据为裁判文书,所述目标特征信息为判决结果信息;
其中,所述根据所述多个文本数据各自所包括的目标特征信息将所述多个文本数据分为多个目标特征分类包括:
根据所述多个文本数据各自所包括的判决结果信息的量刑程度将所述多个文本数据分为多个目标特征分类。
5.根据权利要求4所述的方法,其特征在于,所述文本数据包括以下所述特征因素中的一种或多种:上诉人/被告姓名、辩护人姓名、辩护人律师事务所、上诉人/被告是否少数民族、上诉人/被告性别、上诉人/被告年龄、当事人出生年月、上诉理由、犯罪情节、犯罪动机、完成形态、犯罪时间、犯罪次数、认罪态度情况、是否如实供述犯罪事实、有无悔罪表现、立功表现、共犯中的犯罪作用、特情引诱、毒品类型、毒品数量、毒品纯度、涉案毒资、证人有无主观意识、对社会危害情况、犯罪事实是否清楚、量刑是否适当、证据是否充分、审判程序是否合法、定罪是否准确、公安机关办案是否合法、使用法律是否正确和是否维持原判。
6.根据权利要求1所述的方法,其特征在于,所述多个文本数据预先划分为至少一个领域分类;
其中,所述方法进一步包括:
提取并存储每个所述领域分类的文本数据中的领域词。
7.根据权利要求6所述的方法,其特征在于,所述提取每个所述领域分类的文本数据中的领域词包括:
基于所接收的多个文本数据获取通用新词候选词串;
采用统计的方法判断所述通用新词候选词串是否为领域词候选词串;以及
当所述新词候选词串为领域词候选词串时,通过相似度计算判断所述领域词候选词串是否为所述领域词。
8.根据权利要求6或7所述的方法,其特征在于,进一步包括:设置并存储所述领域词的同义词和/或特征因素的同义词和/或所述特征因素取值的同义词。
9.根据权利要求6或7所述的方法,其特征在于,所述文本数据为裁判文书,所述领域分类为案由分类。
10.一种文本信息库建立装置,其特征在于,包括
特征提取模块,配置为提取多个文本数据中的每个所述文本数据所包括的特征因素以及对应的特征因素取值;以及
存储模块,配置为存储每个所述文本数据所包括的特征因素和特征因素取值与该文本数据之间的对应关系。
11.根据权利要求10所述的装置,其特征在于,进一步包括:
权重设置模块,配置为设置所提取的每个所述特征因素的权重;
其中,所述存储模块进一步配置为存储所提取的每个所述特征因素的权重。
12.根据权利要求11所述的装置,其特征在于,所述文本数据包括目标特征信息;其中,所述权重设置模块包括:
分类单元,配置为根据所述多个文本数据各自所包括的目标特征信息将所述多个文本数据分为多个目标特征分类;
统计单元,配置为统计每个所述目标特征分类中的所述文本数据所包括的特征因素以及对应的特征因素取值;以及
权重获取单元,配置为基于所述统计单元的统计结果以及所述分类单元的分类结果,通过分类模型计算所述多个文本数据中所包括的每个特征因素对所述目标特征信息的影响权重,将所述影响权重作为所述特征因素的权重。
13.根据权利要求12所述的装置,其特征在于,所述文本数据为裁判文书,所述目标特征信息为判决结果信息;
其中,所述分类单元进一步配置为根据所述多个文本数据各自所包括的目标特征信息将所述多个文本数据分为多个目标特征分类。
14.根据权利要求13所述的装置,其特征在于,所述文本数据包括以下所述特征因素中的一种或多种:上诉人/被告姓名、辩护人姓名、辩护人律师事务所、上诉人/被告是否少数民族、上诉人/被告性别、上诉人/被告年龄、当事人出生年月、上诉理由、犯罪情节、犯罪动机、完成形态、犯罪时间、犯罪次数、认罪态度情况、是否如实供述犯罪事实、有无悔罪表现、立功表现、共犯中的犯罪作用、特情引诱、毒品类型、毒品数量、毒品纯度、涉案毒资、证人有无主观意识、对社会危害情况、犯罪事实是否清楚、量刑是否适当、证据是否充分、审判程序是否合法、定罪是否准确、公安机关办案是否合法、使用法律是否正确和是否维持原判。
15.根据权利要求10所述的装置,其特征在于,所述多个文本数据预先划分为至少一个领域分类;
其中,所述装置进一步包括:
领域词提取模块,配置为提取每个所述领域分类的文本数据中的领域词;
其中,所述存储模块进一步配置为存储所提取的每个所述领域分类的领域词。
16.根据权利要求15所述的装置,其特征在于,所述领域词提取模块包括:
通用新词获取单元,配置为基于所接收的多个文本数据获取通用新词候选词串;
第一判断单元,配置为采用统计的方法判断所述通用新词候选词串是否为领域词候选词串;以及
第二判断单元,配置为当所述新词候选词串为领域词候选词串时,通过相似度计算判断所述领域词候选词串是否为所述领域词。
17.根据权利要求15或16所述的装置,其特征在于,进一步包括:同义词设置模块,配置为设置并通过所述存储模块存储所述领域词的同义词和/或特征因素的同义词和/或所述特征因素取值的同义词。
18.根据权利要求15或16所述的装置,其特征在于,所述文本数据为裁判文书,所述领域分类为案由分类。
19.一种文本信息库,其特征在于,包括:
特征因素信息子库,配置为存储多个文本数据中的每个文本数据所包括的特征因素和特征因素取值与该文本数据之间的对应关系。
20.根据权利要求19所述的文本信息库,其特征在于,进一步包括:
特征因素权重子库,配置为存储所述特征因素信息子库中每个所述特征因素的权重。
21.根据权利要求20所述的文本信息库,其特征在于,所述文本数据进一步包括目标特征信息;
其中,所述特征因素的权重为所述特征因素对所述目标特征信息的影响权重。
22.根据权利要求21所述的文本信息库,其特征在于,所述文本数据为裁判文书;
其中,所述目标特征信息为判决结果信息;和/或,
所述文本数据包括以下所述特征因素中的一种或多种:上诉人/被告姓名、辩护人姓名、辩护人律师事务所、上诉人/被告是否少数民族、上诉人/被告性别、上诉人/被告年龄、当事人出生年月、上诉理由、犯罪情节、犯罪动机、完成形态、犯罪时间、犯罪次数、认罪态度情况、是否如实供述犯罪事实、有无悔罪表现、立功表现、共犯中的犯罪作用、特情引诱、毒品类型、毒品数量、毒品纯度、涉案毒资、证人有无主观意识、对社会危害情况、犯罪事实是否清楚、量刑是否适当、证据是否充分、审判程序是否合法、定罪是否准确、公安机关办案是否合法、使用法律是否正确和是否维持原判。
23.根据权利要求20所述的文本信息库,其特征在于,所述多个文本数据预先划分为至少一个领域分类,所述文本信息库进一步包括:
领域词子库,配置为存储所述至少一个领域分类中每个所述领域分类的领域词。
24.根据权利要求23所述的文本信息库,其特征在于,所述文本数据为裁判文书,所述领域分类为案由分类。
25.根据权利要求23所述的文本信息库,其特征在于,进一步包括:
同义词子库,配置为存储所述领域词的同义词和/或特征因素的同义词和/或所述特征因素取值的同义词。
26.一种基于如权利要求19所述的文本信息库的搜索方法,其特征在于,包括:
识别用户输入的搜索信息中的特征信息,其中所述特征信息包括N1个特征因素和N2个特征因素取值,其中N1+N2=N;以及
基于所述特征因素信息子库,获取与所识别出的特征信息相对应的文本数据;
其中,N、N1和N2均为大于等于0的整数。
27.根据权利要求26所述的方法,其特征在于,所述识别用户输入的搜索信息中的特征信息包括:
以所述特征因素信息子库中所包括的特征因素和特征因素取值为识别目标,以字符串匹配的方式识别所述搜索信息中所包括的特征因素和特征因素取值。
28.根据权利要求26所述的方法,其特征在于,所述获取与所识别出的特征信息相对应的文本数据包括:
计算所述特征因素信息子库中的M个文本数据各自在所述特征信息所包括的N1个特征因素和N2个特征因素取值上与所述特征信息之间的N个特征相似度;
根据所述M个文本数据各自对应的N个特征相似度确定所述搜索信息与所述M个文本数据之间的M个搜索相似度;以及
将所述M个文本数据按照所述M个搜索相似度排序并将排序结果呈现给用户;
其中M为大于等于1的整数。
29.根据权利要求26所述的方法,其特征在于,所述文本信息库包括特征因素权重子库,所述特征因素权重子库配置为存储所述特征因素信息子库中每个所述特征因素的权重;
其中,所述获取与所识别出的特征信息相对应的文本数据包括:
基于所述特征因素权重子库获取所识别出的N1个特征因素的权重以及N2个特征因素取值所分别对应的N2个特征因素的权重;
计算所述特征因素信息子库中的M个文本数据各自在所述特征信息所包括N1个特征因素和N2个特征因素取值上与所述特征信息之间的N个特征相似度;
基于所获取的特征因素的权重以及所述M个文本数据各自对应的N个特征相似度,以加权求和的方式计算出所述搜索信息与所述M个文本数据之间的M个搜索相似度;以及
将所述M个文本数据按照所述M个搜索相似度排序并将排序结果呈现给用户;
其中M为大于等于1的整数。
30.根据权利要求26所述的方法,其特征在于,所述多个文本数据预先划分为至少一个领域分类,所述文本信息库包括领域词子库,所述领域词子库配置为存储所述至少一个领域分类中每个所述领域分类的领域词,所述方法进一步包括:
基于所述领域词子库中所包括的领域词,对所述搜索信息进行分词处理,识别所述搜索信息中的所述领域词;
其中,所述基于所述特征因素信息子库,获取与所识别出的特征信息相对应的文本数据包括:
基于所述特征因素信息子库,在识别出的所述领域词所对应的所述领域分类所包括的文本数据中,获取与所识别出的特征信息相对应的文本数据。
31.根据权利要求30所述的方法,其特征在于,所述文本信息库包括同义词子库,所述同义词子库配置为存储所述领域词的同义词和/或特征因素的同义词和/或所述特征因素取值的同义词;
其中,所述识别用户输入的搜索信息中的特征信息包括:若所述搜索信息中所包括的特征因素和/或特征因素取值在所述同义词子库中存在同义词,则将所述同义词也作为识别出的特征因素和/或特征因素取值;
和/或,
所述计算所述特征因素信息子库中的M个文本数据各自在所述特征信息所包括N1个特征因素和N2个特征因素取值上与所述特征信息之间的N个特征相似度包括:若识别出的一个特征因素或特征因素取值与所述特征因素信息子库中一个文本数据的一个特征因素或特征因素取值属于同义词,则直接认为该文本数据在该识别出的特征因素或特征因素取值上的特征相似度为100%;
和/或,
所述方法进一步包括:若识别出的所述领域词在所述同义词子库中存在同义词,则基于所述特征因素信息子库,在识别出的所述领域词以及该同义词所对应的所述领域分类所包括的文本数据中,获取与所识别出的特征信息相对应的文本数据。
32.一种基于如权利要求19所述的文本信息库的搜索装置,其特征在于,包括:
特征识别模块,配置为识别用户输入的搜索信息中的特征信息,其中所述特征信息包括N1个特征因素和N2个特征因素取值,其中N1+N2=N;以及
文本获取模块,配置为基于所述特征因素信息子库,获取与所识别出的特征信息相对应的文本数据;
其中,N、N1和N2均为大于等于0的整数。
33.根据权利要求32所述的装置,其特征在于,所述特征识别模块进一步配置为,以所述特征因素信息子库中所包括的特征因素和特征因素取值为识别目标,以字符串匹配的方式识别所述搜索信息中所包括的特征因素和特征因素取值。
34.根据权利要求32所述的装置,其特征在于,所述文本获取模块包括:
特征相似度计算单元,配置为计算所述特征因素信息子库中的M个文本数据各自在所述特征信息所包括的N1个特征因素和N2个特征因素取值上与所述特征信息之间的N个特征相似度;
搜索相似度计算单元,配置为根据所述M个文本数据各自对应的N个特征相似度确定所述搜索信息与所述M个文本数据之间的M个搜索相似度;以及
返回单元,配置为将所述M个文本数据按照所述M个搜索相似度排序并将排序结果呈现给用户;
其中M为大于等于1的整数。
35.根据权利要求32所述的装置,其特征在于,所述文本信息库包括特征因素权重子库,所述特征因素权重子库配置为存储所述特征因素信息子库中每个所述特征因素的权重;
其中,所述文本获取模块包括:
权重识别单元,配置为基于所述特征因素权重子库获取所识别出的N1个特征因素的权重以及N2个特征因素取值所分别对应的N2个特征因素的权重;
特征相似度计算单元,配置为计算所述特征因素信息子库中的M个文本数据各自在所述特征信息所包括N1个特征因素和N2个特征因素取值上与所述特征信息之间的N个特征相似度;
搜索相似度计算单元,配置为基于所获取的特征因素的权重以及所述M个文本数据各自对应的N个特征相似度,以加权求和的方式计算出所述搜索信息与所述M个文本数据之间的M个搜索相似度;以及
返回单元,配置为将所述M个文本数据按照所述M个搜索相似度排序并将排序结果呈现给用户;
其中M为大于等于1的整数。
36.根据权利要求32所述的装置,其特征在于,所述多个文本数据预先划分为至少一个领域分类,所述文本信息库包括领域词子库,所述领域词子库配置为存储所述至少一个领域分类中每个所述领域分类的领域词,所述装置进一步包括:
领域词识别模块,配置为基于所述领域词子库中所包括的领域词,对所述搜索信息进行分词处理,识别所述搜索信息中的所述领域词;
其中,所述文本获取模块进一步配置为:基于所述特征因素信息子库,在识别出的所述领域词所对应的所述领域分类所包括的文本数据中,获取与所识别出的特征信息相对应的文本数据。
37.根据权利要求36所述的装置,其特征在于,所述文本信息库包括同义词子库,所述同义词子库配置为存储所述领域词的同义词和/或特征因素的同义词和/或所述特征因素取值的同义词;
其中,所述特征识别模块进一步配置为,若所述搜索信息中所包括的特征因素和/或特征因素取值在所述同义词子库中存在同义词,则将所述同义词也作为识别出的特征因素和/或特征因素取值;
和/或,
所述特征相似度计算单元进一步配置为:若所述特征识别模块识别出的一个特征因素或特征因素取值与所述特征因素信息子库中一个文本数据的一个特征因素或特征因素取值属于同义词,则直接认为该文本数据在该识别出的特征因素或特征因素取值上的特征相似度为100%;
和/或,
所述文本获取模块进一步配置为:
若所述领域词识别模块识别出的所述领域词在所述同义词子库中存在同义词,则基于所述特征因素信息子库,在所述领域词识别模块识别出的所述领域词以及该同义词所对应的所述领域分类所包括的文本数据中,获取与所识别出的特征信息相对应的文本数据。
38.一种搜索系统,其特征在于,包括:如权利要求19至25中任一所述的文本信息库以及如权利要求32至37中任一所述的搜索装置;
其中,所述搜索装置接受用户输入的搜索信息,基于所述文本信息库获取与所述用户输入的搜索信息相对应的文本数据。
CN201611257156.3A 2016-12-30 2016-12-30 文本信息库建立方法和装置、以及搜索方法、装置和系统 Pending CN106649849A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611257156.3A CN106649849A (zh) 2016-12-30 2016-12-30 文本信息库建立方法和装置、以及搜索方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611257156.3A CN106649849A (zh) 2016-12-30 2016-12-30 文本信息库建立方法和装置、以及搜索方法、装置和系统

Publications (1)

Publication Number Publication Date
CN106649849A true CN106649849A (zh) 2017-05-10

Family

ID=58838799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611257156.3A Pending CN106649849A (zh) 2016-12-30 2016-12-30 文本信息库建立方法和装置、以及搜索方法、装置和系统

Country Status (1)

Country Link
CN (1) CN106649849A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107632968A (zh) * 2017-05-22 2018-01-26 南京大学 一种面向裁判文书的证据链关系模型的构建方法
CN107977358A (zh) * 2017-11-23 2018-05-01 浪潮金融信息技术有限公司 语句识别方法及装置、计算机存储介质和终端
CN107992472A (zh) * 2017-11-23 2018-05-04 浪潮金融信息技术有限公司 句子相似度计算方法及装置、计算机存储介质和终端
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN108595525A (zh) * 2018-03-27 2018-09-28 成都律云科技有限公司 一种律师信息处理方法和系统
CN108776653A (zh) * 2018-05-25 2018-11-09 南京大学 一种基于PageRank和信息熵的裁判文书的文本分词方法
WO2020135247A1 (zh) * 2018-12-24 2020-07-02 北京国双科技有限公司 法律文书解析方法及装置
CN111552806A (zh) * 2020-04-16 2020-08-18 重庆大学 一种无监督构建建筑领域实体集合的方法
CN112232077A (zh) * 2020-09-30 2021-01-15 和美(深圳)信息技术股份有限公司 一种基于图嵌入的新词发现方法、系统、设备及介质
CN113779222A (zh) * 2021-09-14 2021-12-10 北京捷风数据技术有限公司 一种基于合同信息匹配中标信息的方法、系统及存储介质
CN113793199A (zh) * 2021-09-14 2021-12-14 北京捷风数据技术有限公司 一种招中标信息推荐方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591920A (zh) * 2011-12-19 2012-07-18 刘松涛 对文档管理系统中的文档集合进行分类的方法以及系统
CN104572849A (zh) * 2014-12-17 2015-04-29 西安美林数据技术股份有限公司 基于文本语义挖掘的标准化自动建档方法
CN105930473A (zh) * 2016-04-25 2016-09-07 安徽富驰信息技术有限公司 一种基于随机森林技术的相似文件检索方法
CN106126695A (zh) * 2016-06-30 2016-11-16 张春生 一种相似案件检索方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591920A (zh) * 2011-12-19 2012-07-18 刘松涛 对文档管理系统中的文档集合进行分类的方法以及系统
CN104572849A (zh) * 2014-12-17 2015-04-29 西安美林数据技术股份有限公司 基于文本语义挖掘的标准化自动建档方法
CN105930473A (zh) * 2016-04-25 2016-09-07 安徽富驰信息技术有限公司 一种基于随机森林技术的相似文件检索方法
CN106126695A (zh) * 2016-06-30 2016-11-16 张春生 一种相似案件检索方法及装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107632968B (zh) * 2017-05-22 2021-01-05 南京大学 一种面向裁判文书的证据链关系模型的构建方法
CN107632968A (zh) * 2017-05-22 2018-01-26 南京大学 一种面向裁判文书的证据链关系模型的构建方法
CN107977358A (zh) * 2017-11-23 2018-05-01 浪潮金融信息技术有限公司 语句识别方法及装置、计算机存储介质和终端
CN107992472A (zh) * 2017-11-23 2018-05-04 浪潮金融信息技术有限公司 句子相似度计算方法及装置、计算机存储介质和终端
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN108197163B (zh) * 2017-12-14 2021-08-10 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN108595525A (zh) * 2018-03-27 2018-09-28 成都律云科技有限公司 一种律师信息处理方法和系统
CN108776653A (zh) * 2018-05-25 2018-11-09 南京大学 一种基于PageRank和信息熵的裁判文书的文本分词方法
WO2020135247A1 (zh) * 2018-12-24 2020-07-02 北京国双科技有限公司 法律文书解析方法及装置
CN111552806A (zh) * 2020-04-16 2020-08-18 重庆大学 一种无监督构建建筑领域实体集合的方法
CN111552806B (zh) * 2020-04-16 2021-11-02 重庆大学 一种无监督构建建筑领域实体集合的方法
CN112232077A (zh) * 2020-09-30 2021-01-15 和美(深圳)信息技术股份有限公司 一种基于图嵌入的新词发现方法、系统、设备及介质
CN112232077B (zh) * 2020-09-30 2021-10-29 和美(深圳)信息技术股份有限公司 一种基于图嵌入的新词发现方法、系统、设备及介质
CN113779222A (zh) * 2021-09-14 2021-12-10 北京捷风数据技术有限公司 一种基于合同信息匹配中标信息的方法、系统及存储介质
CN113793199A (zh) * 2021-09-14 2021-12-14 北京捷风数据技术有限公司 一种招中标信息推荐方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN106649849A (zh) 文本信息库建立方法和装置、以及搜索方法、装置和系统
CN107515877B (zh) 敏感主题词集的生成方法和装置
CN109815314B (zh) 一种意图识别方法、识别设备及计算机可读存储介质
CN104199822B (zh) 一种识别搜索对应的需求分类的方法和系统
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
CN107437038B (zh) 一种网页篡改的检测方法及装置
US20160260033A1 (en) Systems and Methods for Similarity and Context Measures for Trademark and Service Mark Analysis and Repository Searchess
WO2016180270A1 (zh) 网页分类方法和装置、计算设备以及机器可读存储介质
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN104537341B (zh) 人脸图片信息获取方法和装置
US11144594B2 (en) Search method, search apparatus and non-temporary computer-readable storage medium for text search
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN106570708A (zh) 一种智能客服知识库的管理方法及系统
CN103955453B (zh) 一种从文档集中自动发现新词的方法及装置
CN107729468A (zh) 基于深度学习的答案抽取方法及系统
CN102968419B (zh) 交互式互联网实体名称的消歧方法
CN113254643B (zh) 文本分类方法、装置、电子设备和
KR101355945B1 (ko) 온라인 문맥기반 광고 장치 및 방법
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN113849598B (zh) 基于深度学习的社交媒体虚假信息检测方法及检测系统
CN104142995A (zh) 基于视觉属性的社会事件识别方法
CN112685642A (zh) 一种标签推荐方法、装置、电子设备及存储介质
TWI645348B (zh) 商品相關網路文章之自動圖文摘要方法及系統
US10706371B2 (en) Data processing techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510