CN110347785A - 非结构化文书搜索方法、装置、计算机设备和存储介质 - Google Patents
非结构化文书搜索方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110347785A CN110347785A CN201910463024.3A CN201910463024A CN110347785A CN 110347785 A CN110347785 A CN 110347785A CN 201910463024 A CN201910463024 A CN 201910463024A CN 110347785 A CN110347785 A CN 110347785A
- Authority
- CN
- China
- Prior art keywords
- text
- search
- instance
- entity
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 claims description 143
- 230000015654 memory Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 13
- 239000003814 drug Substances 0.000 description 12
- 229940079593 drug Drugs 0.000 description 12
- 235000013399 edible fruits Nutrition 0.000 description 9
- 238000007689 inspection Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 238000009412 basement excavation Methods 0.000 description 5
- 241000208340 Araliaceae Species 0.000 description 4
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 4
- 235000003140 Panax quinquefolius Nutrition 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 235000008434 ginseng Nutrition 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000021615 conjugation Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Technology Law (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请揭示了一种非结构化文书搜索方法、装置、计算机设备和存储介质,其中方法包括解析从客户端获取的搜索条件文本,获取搜索条件文本所包括的至少一条第一实体文本以及每条第一实体文本分别对应的第一实体类型;对搜索条件文本进行意图识别,获取搜索条件文本对应的搜索意图;根据搜索意图,将所有第一实体文本以及各第一实体文本分别对应的第一实体类型构造为搜索表达式;将搜索表达式在文书数据库中进行匹配,生成搜索结果;将搜索结果呈现于客户端。本申请可以实现对用户输入的搜索条件文本的精准解析,进而自动构造准确的搜索表达式,从而实现非结构化文书的准确检索,有利于提高用户检索法律文书的效率。
Description
技术领域
本申请涉及自然语言处理技术领域,具体涉及一种非结构化文书搜索方法、装置、计算机设备和存储介质。
背景技术
法律文书一般由法院、检察院等司法机关掌握,虽然目前有一些法律文书网站开放了对法律文书的查询,但关于法律文书的检索的准确度还是非常有限。用户在搜索平台输入的搜索条件文本通常为非结构化文本,目前基于非结构化的搜索条件文本,在进行搜索时大多是从数据库中进行简单的字符串匹配搜索,而不能对法律文书中涉及到的涉案金额、罚款数量、刑期长短、作案手段、证据类型等重要实体文本信息进行精准检索。例如,用户想要查询涉案金额为2万元的案件,如果在搜索平台输入搜索条件文本“2万元”,则得到的结果是包括了2万元这一内容的全部案件,如涉案金额2万元,罚款金额2万元等的案件;而不能准确得到涉案金额为2万元的案件。用户检索法律文书的效率大大降低,而且检索的准确度低,不利于对法律数据的深入挖掘和分析。
发明内容
本申请的主要目的为提供一种非结构化文书搜索方法、装置、计算机设备和存储介质,旨在解决现有技术中,在进行法律文书搜索时,无法精准检索与搜索条件文本相匹配的非结构化文书的问题。
本申请提出一种非结构化文书搜索方法,包括:
解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型;
根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图,所述搜索意图包括各所述第一实体文本分别对应的搜索意图;
根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式;
将所述搜索表达式在文书数据库中进行匹配,生成搜索结果,其中,所述文书数据库中存储了至少一条非结构化文书,所述搜索结果中包含与所述搜索表达式相匹配的各条非结构化文书;
将所述搜索结果呈现于所述客户端。
进一步地,所述解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型的步骤,包括:
从搜索平台获取非结构化的所述搜索条件文本;
将所述搜索条件文本输入至预训练的自动标注模型中进行标注,以得到标注过的搜索条件文本,所述标注过的搜索条件文本中包括至少一条所述第一实体文本和每条所述第一实体文本分别对应的第一实体类型。
进一步地,所述将所述搜索表达式在文书数据库中进行匹配,生成搜索结果的步骤前,包括:
获取初始非结构化文书;
将所述初始非结构化文书输入至所述自动标注模型中进行标注,以得到标注过的非结构化文书,标注过的所述非结构化文书中包括至少一条第二实体文本,以及各所述第二实体文本分别对应的第二实体类型。
进一步地,所述从搜索平台获取非结构化的所述搜索条件文本的步骤前,包括:
获取训练语料;
对所述训练语料中的实体文本、实体类型和非实体文本进行标注,得到训练集;
将所述训练集输入至双向长短时记忆-条件随机场模型中进行训练,以得到所述自动标注模型。
进一步地,所述对所述训练语料中的实体文本、实体类型和非实体文本进行标注,得到训练集的步骤,包括:
获取预设标注模板,其中,所述预设标注模板中关联存储了各个预定义实体文本与各个所述预定义实体文本对应的实体类型;
将所述训练语料包含的,与任一所述预定义实体文本相同的文本作为所述实体文本,并在所述训练语料中对所述实体文本进行标注,得到第一标注文本;
从所述预设标注模板中,查找与所述实体文本对应的实体类型,并在所述第一标注文本中对所述实体文本对应的实体类型进行标注,得到第二标注文本;
将所述第二标注文本中未标注的文本作为所述非实体文本,并在所述第二标注文本中对所述非实体文本进行标注,得到标注后的训练语料;
将所述标注后的训练语料添加至所述训练集中。
进一步地,所述将所述搜索表达式在文书数据库中进行匹配,生成搜索结果的步骤,包括:
分别将各标注过的所述非结构化文书中,所包括的所述第二实体文本和各所述第二实体文本分别对应的第二实体类型,与所述搜索表达式进行匹配,选取与所述搜索表达式相匹配的各条非结构化文书作为各条指定非结构化文书;
将各条所述指定非结构化文书,按照预设排列顺序进行排序,将排序后的各条所述指定非结构化文书作为搜索结果。
进一步地,所述根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式的步骤,包括:
将每条所述第一实体文本和与每条所述第一实体文本对应的第一实体类型设为一组搜索式;
判断所有所述搜索式的组数是否大于1个;
若是,则根据所述搜索意图,将各组所述搜索式通过逻辑连接符连接为所述搜索表达式,所述逻辑连接符包括“和”、“或”。
本申请还提出了一种非结构化文书搜索装置,包括:
条件文本解析单元,用于解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型;
搜索意图识别单元,用于根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图,所述搜索意图包括各所述第一实体文本分别对应的搜索意图;
搜索表达式构造单元,用于根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式;
搜索结果获取单元,用于将所述搜索表达式在文书数据库中进行匹配,生成搜索结果,其中,所述文书数据库中存储了至少一条非结构化文书,所述搜索结果中包含与所述搜索表达式相匹配的各条非结构化文书;
搜索结果呈现单元,用于将所述搜索结果呈现于所述客户端。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的有益效果:
本申请的非结构化文书搜索方法、装置、计算机设备和存储介质,首先从搜索条件文本中获取其中包含的至少一条第一实体文本和每条第一实体文本分别对应的第一实体类型;再根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图;然后根据搜索意图,将所有第一实体文本以及各第一实体文本分别对应的第一实体类型构造为搜索表达式;再将搜索表达式在文书数据库中进行匹配,生成搜索结果;最后将所述搜索结果呈现于所述客户端。本申请在搜索非结构化文书时,通过上述的方法,可以实现对用户输入的搜索条件文本的精准解析,进而自动构造准确的搜索表达式,从而实现非结构化文书的准确检索,有利于提高用户检索法律文书的效率,有利于法官、检察官、律师等用户对法律数据的深入挖掘和分析。
附图说明
图1是本申请一实施例的非结构化文书搜索方法的流程示意图;
图2是本申请一实施例的非结构化文书搜索装置的结构示意框图;
图3是本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种非结构化文书搜索方法,包括:
S1、解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型;
S2、根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图,所述搜索意图包括各所述第一实体文本分别对应的搜索意图;
S3、根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式;
S4、将所述搜索表达式在文书数据库中进行匹配,生成搜索结果,其中,所述文书数据库中存储了至少一条非结构化文书,所述搜索结果中包含与所述搜索表达式相匹配的各条非结构化文书;
S5、将所述搜索结果呈现于所述客户端。
本实施例中,上述步骤S1中,上述搜索条件文本为用户从客户端输入的用于从文本数据库中搜索指定非结构化文书的文本。文书数据库中存储了非结构化文书,包括例如裁判文书、检查文书、法律法规等。用户输入的搜索条件文本为非结构化文本。上述第一实体文本为在搜索条件文本中具有特定意义的文本,具体地,可以根据具体搜索场景来预先定义好具有特定意义的文本,例如,对于法律文本的搜索场景,在用户输入的搜索条件文本中所包括的人名文本、地名文本、法院名文本、涉案金额文本、罚款金额文本、罪名文本、刑期文本、毒品数量文本、日期时间文本、法条文本等通常为用户关注的内容,可以将这些在具体搜索场景下具有特定意义的文本预先定义好,服务器根据预先定义好的具有特定意义的文本,解析搜索条件文本,获取对应的第一实体文本。对应地,在搜索条件文本中,除上述第一实体文本以外的文本,定义为不具有特定意义的文本,则被归类为第一非实体文本。上述第一实体类型为第一实体文本对应的实体类型,包括例如人名、地名、法院名、涉案金额、罚款金额、罪名、刑期、毒品数量、日期时间、法条等。
例如用户在搜索平台输入搜索条件文本,“查询北京市2017年盗窃罪被判10年以上的案件”,这段非结构化的搜索条件文本中包含的第一实体文本和对应的第一实体类型如表1所列。
表1搜索条件文本中包含的实体文本和对应的实体类型举例
第一实体类型 | 第一实体文本 |
province | 北京市 |
datetime | 2017年 |
accusation | 盗窃罪 |
term of imprisonment | 10年 |
上述步骤S2中,上述搜索意图为搜索条件文本的语意所反映的用户的意图,可以采用现有技术中的意图识别方法对搜索条件文本进行意图识别。上述预设意图识别方法包括如词表穷举法,通过词表直接匹配的方式来获取查询意图;规则解析法,通过预先制定的规则来解析获取查询意图;机器学习法,针对法律数据库的文本特点,定义不同的查询意图类别,对于用户输入的搜索条件文本,根据统计分类模型计算出每一个查询意图的概率,给出最终的查询意图。本申请在此不再对意图识别的具体过程进行赘述。上述各所述第一实体文本分别对应的搜索意图包括如:搜索条件文本中包含多个第一实体文本,在搜索时多个第一实体文本之间的关系是“和”关系还是“或”关系;搜索条件文本中包含的日期时间文本(如10年以上)表示用户希望搜索大于10年这一时间范围,而不是正好10年这一时间点。
上述步骤S3中,根据搜索意图先对每条第一实体文本和每条第一实体文本对应的第一实体类型分别构造搜索式。例如,对于表1中的第一实体类型:term of imprisonment;第一实体文本:“10年”,通过搜索意图识别出是范围搜索(即搜索的是大于10年的时间范围),即构造出搜索式为"term_of_imprisonment":“>10”。再例如,对于表1中的第一实体类型:“province”;第一实体文本:“北京市”,构造出搜索式为“province”:“北京”。在每条搜索式均构造完毕后,再根据搜索意图对各个搜索式进行连接,例如,对于表1中的多个第一实体文本之间的关系是“和”关系(即需要搜索与多个第一实体类型的第一实体文本均相匹配),则构造出最终的搜索表达式为:“must”:[“term”:{"Province":“北京”}},{"term":{"accusation":"盗窃罪"}},{"term":{"datetime":"2017"}},{"term":{"term_of_imprisonment":gt 10}}]。
上述步骤S4中,上述文书数据库中存储了非结构化文书,上述非结构化文书包括裁判文书、检查文书、法律法规等。文书数据库中存储的非结构化文书为预先标注过的非结构化文书,包括至少一条第二实体文本,以及各所述第二实体文本分别对应的第二实体类型。其中,第二实体文本为在非结构化文书中具有特定意义的文本,与前述第一实体文本相似,根据具体搜索场景来预先定义好具有特定意义的文本,例如,对于法律文本的搜索场景,在非结构文书中所包括的人名文本、地名文本、法院名文本、涉案金额文本、罚款金额文本、罪名文本、刑期文本、毒品数量文本、日期时间文本、法条文本等通常为用户关注的内容,可以将这些具有特定意义的文本预先定义好,根据预先定义好的具有特定意义的文本,对非结构化文书的第二实体文本进行标注。同时,非结构化文书中还标注了每条第二实体文本对应的第二实体类型。第二实体类型为第二实体文本对应的实体类型,包括例如人名、地名、法院名、涉案金额、罚款金额、罪名、刑期、毒品数量、日期时间、法条等,第一实体类型所包含的种类在第二实体类型所包含的种类的范围内。对应地,在非结构化文书中,除第二实体文本以外的文本,定义为不具有特定意义的文本,则被归类为第二非实体文本。非结构化文书可以采用BIO标注,B为Begin,表示开始;I为Intermediate,表示中间;O为Other,表示其它;其中B标签代表实体文本的开头第一个字,I代表实体文本除了第一个字之外的字,O代表非实体文本。上述文书数据库中存储的非结构化文书均经过BIO标注。
例如,对于一段非结构化文书样例:“本院再审认为,原审被告人尹家彩秘密窃取他人财物,参与作案6起,盗得财物共计人民币18612元,数额较大,其行为已构成盗窃罪。”经BIO标注后得到的标注过的非结构化文书为:“本/O院/O再/O审/O认/O为/O,/O原/O审/O被/O告/O人/O尹/B-person家/I-person彩/I-person秘/O密/O窃/O取/O他/O人/O财/O物/O,/O参/O与/O作/O案/O 6/O起/O,/O盗/O得/O财/O物/O共/O计/O人/O民/O币/O 1/B-money8/I-money 6/I-money 1/I-money 2/I-money元/I-money,/O数/O额/O较/O大/O,/O其/O行/O为/O已/O构/O成/O盗/B-accusation窃/I-accusation罪/I-accusation。/O”其中,实体文本的开头第一个字采用B,实体文本除了第一个字之外的字采用I,其余非实体文本采用O,并对实体文本对应的实体类型进行标注,如“person”、“money”等。
根据搜索表达式在文书数据库中进行匹配搜索,将搜索表达式中的第一实体文本和第一实体类型与文书数据库中的标注过的非结构化文书进行匹配。例如搜索表达式中包括第一实体文本为100,对应的第一实体类型为money;则在文书数据库中查找时,只有匹配money:100的非结构化文书才会被认为与搜索表达式相匹配;而如果是某某人被判刑100天的宣判文书,虽然也有第二实体文本100,但第二实体类型与第一实体类型不匹配,则判定与搜索表达式不匹配,该宣判文书不会被列入搜索结果中。上述搜索结果用于按照预设排列顺序显示搜索得到的指定非结构化文书,例如可以按照时间顺序或相关度顺序逐条显示各条指定非结构化文书。
上述步骤S5中,将上述搜索结果呈现于上述客户端,则用户从客户端界面看到基于搜索条件文本返回的搜索结果,即,用户在客户端界面看到按照预设排列顺序进行排序的各条指定非结构化文书。
本实施例的非结构化文书搜索方法,首先从搜索条件文本中获取其中包含的至少一条第一实体文本和每条第一实体文本分别对应的第一实体类型;再根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图;然后根据搜索意图,将所有第一实体文本以及各第一实体文本分别对应的第一实体类型构造为搜索表达式;再将搜索表达式在文书数据库中进行匹配,生成搜索结果;最后将所述搜索结果呈现于所述客户端。本申请实施例在搜索非结构化文书时,通过上述的方法,可以实现对用户输入的搜索条件文本的精准解析,进而自动构造准确的搜索表达式,从而实现非结构化文书的准确检索,有利于提高用户检索法律文书的效率,有利于法官、检察官、律师等用户对法律数据的深入挖掘和分析。
在一个实施例中,上述解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型的步骤S1,包括:
S101、从搜索平台获取非结构化的所述搜索条件文本;
S102、将所述搜索条件文本输入至自动标注模型中进行标注,以得到标注过的搜索条件文本,所述标注过的搜索条件文本中包括至少一条所述第一实体文本和每条所述第一实体文本分别对应的第一实体类型。
本实施例中,上述步骤S101中,上述搜索平台包括法律大数据对应的搜索引擎、搜索网页、应用程序等。用户通过在搜索平台的搜索条件框中输入搜索条件文本,上述搜索条件文本可以是一段包含多个不同类型的第一实体文本的非结构化文本,例如“查询北京市2017年盗窃罪被判10年以上的案件”。
上述步骤S102中,上述自动标注模型的输入为非结构化的文本,输出结果为对非结构化的文本所包括的实体文本和非实体文本进行BIO标注后的文本。在本实施例中,将搜索条件文本输入至上述自动标注模型中,输出为对搜索条件文本中的第一实体文本、第一实体类型和第一非实体文本进行BIO标注后得到的标注过的搜索条件文本。例如,将搜索条件文本“查询北京市2017年盗窃罪被判10年以上的案件”通过自动标注模型进行标注,则得到的标注过的搜索条件文本为“查/O询/O北/B-province京/I-province市/I-province 2/B-datetime 0/I-datetime 1/I-datetime 7/I-datetime年/I-datetime盗/B-accusation窃/I-accusation罪/I-accusation被/O判/O 1/B-term of imprisonment 0/I-term ofimprisonment年I-term of imprisonment以I-term of imprisonment上I-term ofimprisonment的/O案/O件/O”,从标注过的搜索条件文本中即可获取如表1所列的各第一实体文本以及各第一实体文本对应的第一实体类型。
在一个实施例中,上述将所述搜索表达式在文书数据库中进行匹配,生成搜索结果的步骤S4前,包括:
S041、获取初始非结构化文书;
S042、将所述初始非结构化文书输入至所述自动标注模型中进行标注,以得到标注过的非结构化文书,标注过的所述非结构化文书中包括至少一条第二实体文本,以及各所述第二实体文本分别对应的第二实体类型。
本实施例中,上述步骤S041中,上述初始非结构化文书为未经标记处理的非结构化文书,包括例如裁判文书、检查文书、法律法规等,可以从相应的文书发布网站来获取上述非结构化文书。
上述步骤S042中,将初始非结构化文书输入至上述自动标注模型中,输出为对初始非结构化文书中的第二实体文本、第二实体类型和第二非实体文本进行BIO标注后得到的标注过的非结构化文书。例如,对于一段非结构化文书样例:“本院再审认为,原审被告人尹家彩秘密窃取他人财物,参与作案6起,盗得财物共计人民币18612元,数额较大,其行为已构成盗窃罪。”经BIO标注后得到的标注过的非结构化文书为:“本/O院/O再/O审/O认/O为/O,/O原/O审/O被/O告/O人/O尹/B-person家/I-person彩/I-person秘/O密/O窃/O取/O他/O人/O财/O物/O,/O参/O与/O作/O案/O 6/O起/O,/O盗/O得/O财/O物/O共/O计/O人/O民/O币/O1/B-money 8/I-money 6/I-money 1/I-money 2/I-money元/I-money,/O数/O额/O较/O大/O,/O其/O行/O为/O已/O构/O成/O盗/B-accusation窃/I-accusation罪/I-accusation。/O”。
在一个实施例中,上述从搜索平台获取非结构化的所述搜索条件文本的步骤S101前,包括:
S001、获取训练语料;
S002、对所述训练语料中的实体文本、实体类型和非实体文本进行标注,得到训练集;
S003、将所述训练集输入至双向长短时记忆-条件随机场模型中进行训练,以得到所述自动标注模型。
本实施例中,上述步骤S001中,上述训练语料用于训练自动标注模型,可以将现有的法律文书作为训练语料,也可以由开发人员根据相关法律词典编写训练语料。
上述步骤S002中,对训练语料中的实体文本、实体类型和非实体文本进行BIO标注,实体文本的开头第一个字采用B,实体文本除了第一个字之外的字采用I,其余非实体文本采用O,在实体文本的B/I标注之后再标注实体类型。上述实体文本为在训练语料中具有特定意义的文本,根据具体应用场景来预先定义好具有特定意义的文本,例如,对于法律文本的搜索场景,在训练语料中所包括的人名文本、地名文本、法院名文本、涉案金额文本、罚款金额文本、罪名文本、刑期文本、毒品数量文本、日期时间文本、法条文本等通常为用户关注的内容,可以将这些具有特定意义的文本预先定义好,根据预先定义好的具有特定意义的文本,标注训练语料中的实体文本。同时,在训练语料中个,还对每条实体文本对应的实体类型进行标注。上述实体类型为实体文本对应的实体类型,包括例如人名、地名、法院名、涉案金额、罚款金额、罪名、刑期、毒品数量、日期时间、法条等。对应地,在训练语料中,除上述实体文本以外的文本,定义为不具有特定意义的文本则被归类为非实体文本。上述步骤S003中,上述双向长短时记忆-条件随机场模型的网络输入为训练语料,输出结果为对训练语料包含的实体文本、实体类型和非实体文本进行标注后的标注结果。长短时记忆模型是一种特殊类型的RNN(Recurrent Netural Networks,循环神经网络),能够学习长期的依赖关系。双向循环神经网络的基本思想是提出每一个训练序列向前和向后分别是两个LSTM(Long Short-Term Memory,长短时记忆模型),而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。条件随机场是给定一组输入随机变量条件下,另外一组输出随机变量的条件概率分布模型。对于给定的长度为m的序列X,假设标注的结果为[y1,…,ym],则命名实体标注问题可以表示在已知序列X的条件下,找出使得[y1,…,ym]的概率P(y1,…,ym)最大的序列[Y1,…,Ym]。具体地,将上述训练语料输入上述双向长短时记忆-条件随机场模型中,同时经过向前推算以及向后推算后输出连接至输出层,提供给输出层训练语料中每一个字的完整的过去和未来的上下文信息,将上下文信息结合条件随机场,对训练语料所包括的实体文本、实体类型和非实体文本进行区分标注,输出对训练语料的标注结果。
在一个实施例中,上述对所述训练语料中的实体文本、实体类型和非实体文本进行标注,得到训练集的步骤S002,包括:
S0021、获取预设标注模板,其中,所述预设标注模板中关联存储了各个预定义实体文本与各个所述预定义实体文本对应的实体类型;
S0022、将所述训练语料包含的,与任一所述预定义实体文本相同的文本作为所述实体文本,并在所述训练语料中对所述实体文本进行标注,得到第一标注文本;
S0023、从所述预设标注模板中,查找与所述实体文本对应的实体类型,并在所述第一标注文本中对所述实体文本对应的实体类型进行标注,得到第二标注文本;
S0024、将所述第二标注文本中未标注的文本作为所述非实体文本,并在所述第二标注文本中对所述非实体文本进行标注,得到标注后的训练语料;
S0025、将所述标注后的训练语料添加至所述训练集中。
在本实施例中,通过上述步骤S0021~S0025进行训练语料中的实体文本、实体类型和非实体文本进行标注,减少人工标注训练语料的工作量。将常用的实体文本,例如“中级人民法院”、“诈骗罪”等,加入预设标注模板中,并在预设标注模板中对各个实体文本模板对应的实体类型进行标记,例如“中级人民法院”对应的实体类型为“法院名”,“诈骗罪”对应的实体类型为“罪名”。服务器通过将训练语料与预设标注模板进行匹配,对训练语料中的实体文本、实体类型和非实体文本依序自动进行BIO标注。得到的标注后的训练语料添加至训练集中,用于训练自动标注模型。得到的标注后的训练语料,可能存在少量错误,还可以进一步进行人工修正,提高训练语料的准确性。通过与预设标注模板进行匹配,自动进行训练语料的标注,减少了人工标注的工作量,有利于快速生成用于训练自动标注模型的训练集。
在另一个具体实施例中,还可以通过现有的通用标注模型对训练语料进行标注。由于通用标注模型不是针对特定的法律文书训练出来的标注模型,所以需要再进行人工修正错误,以得到用于自动标注模型的训练集。通过通用标注模型对训练语料先进行标注,也有利于大大减少人工标注的工作量,有利于快速生成用于训练自动标注模型的训练集。
在一个实施例中,上述将所述搜索表达式在文书数据库中进行匹配,生成搜索结果的步骤S4,包括:
S401、分别将各标注过的所述非结构化文书中,所包括的所述第二实体文本和各所述第二实体文本分别对应的第二实体类型,与所述搜索表达式进行匹配,选取与所述搜索表达式相匹配的各条非结构化文书作为各条指定非结构化文书;
S402、将各条所述指定非结构化文书,按照预设排列顺序进行排序,将排序后的各条所述指定非结构化文书作为搜索结果。
本实施例中,上述步骤S401中,根据搜索表达式在文书数据库中进行匹配搜索,将搜索表达式中的第一实体文本和第一实体类型与文书数据库中的标注过的非结构化文书进行匹配。例如搜索表达式中包括第一实体文本为100,对应的第一实体类型为money;则在文书数据库中匹配时,只有与money:100均匹配的非结构化文书才会被认为与搜索表达式相匹配;而如果是某某人被判刑100天的宣判文书,虽然也有第二实体文本100,但第二实体类型与第一实体类型不匹配,则判定与搜索表达式不匹配,该宣判文书不会被列入搜索结果中。在搜索非结构化文书时,可以实现根据搜索表达式对非结构化文书进行精准匹配,从而实现非结构化文书的准确检索。
上述步骤S402中,上述搜索结果用于按照预设排列顺序显示搜索得到的指定非结构化文书,例如可以按照时间顺序或相关度顺序逐条显示各条指定非结构化文书。
在一个实施例中,上述根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式的步骤S3,包括:
S301、将每条所述第一实体文本和与每条所述第一实体文本对应的第一实体类型设为一组搜索式;
S302、判断所有所述搜索式的组数是否大于1个;
S303、若是,则根据所述搜索意图,将各组所述搜索式通过逻辑连接符连接为所述搜索表达式,所述逻辑连接符包括“和”、“或”。
本实施例中,上述步骤S301中,先对每条第一实体文本和每条第一实体文本对应的第一实体类型分别构造搜索式。例如,对于表1中的第一实体类型:term ofimprisonment;第一实体文本:“10年”,通过搜索意图识别出是范围搜索(即搜索的是大于10年的时间范围),即构造出搜索式为"term_of_imprisonment":“>10”。再例如,对于表1中的第一实体类型:“province”;第一实体文本:“北京市”,构造出搜索式为“province”:“北京”。
上述步骤S302~S303中,在每条搜索式均构造完毕后,如果搜索式的组数大于1组,则需要建立各组搜索式之间的连接关系。再根据搜索意图对各个搜索式通过逻辑连接符进行连接,例如,对于表1中的多个第一实体文本之间的关系是“和”关系(即需要搜索与多个第一实体类型的第一实体文本均相匹配),则构造出最终的搜索表达式为:“must”:[“term”:{"Province":“北京”}},{"term":{"accusation":"盗窃罪"}},{"term":{"datetime":"2017"}},{"term":{"term_of_imprisonment":gt10}}]。在其它的实施例中,不同搜索式之间还可以是“或”关系,则根据“或”关系生成对应的搜索表达式,本申请在此不做赘述。
参照图2,本申请一实施例中提供了一种非结构化文书搜索装置,包括:
条件文本解析单元10,用于解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型;
搜索意图识别单元20,用于根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图,所述搜索意图包括各所述第一实体文本分别对应的搜索意图;
搜索表达式构造单元30,用于根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式;
搜索结果获取单元40,用于将所述搜索表达式在文书数据库中进行匹配,生成搜索结果,其中,所述文书数据库中存储了至少一条非结构化文书,所述搜索结果中包含与所述搜索表达式相匹配的各条非结构化文书;
搜索结果呈现单元50,用于将所述搜索结果呈现于所述客户端。
本实施例中,上述条件文本解析单元10中,上述搜索条件文本为用户从客户端输入的用于从文本数据库中搜索指定非结构化文书的文本。文书数据库中存储了非结构化文书,包括例如裁判文书、检查文书、法律法规等。用户输入的搜索条件文本为非结构化文本。上述第一实体文本为在搜索条件文本中具有特定意义的文本,具体地,可以根据具体搜索场景来预先定义好具有特定意义的文本,例如,对于法律文本的搜索场景,在用户输入的搜索条件文本中所包括的人名文本、地名文本、法院名文本、涉案金额文本、罚款金额文本、罪名文本、刑期文本、毒品数量文本、日期时间文本、法条文本等通常为用户关注的内容,可以将这些在具体搜索场景下具有特定意义的文本预先定义好,服务器根据预先定义好的具有特定意义的文本,解析搜索条件文本,获取对应的第一实体文本。对应地,在搜索条件文本中,除上述第一实体文本以外的文本,定义为不具有特定意义的文本,则被归类为第一非实体文本。上述第一实体类型为第一实体文本对应的实体类型,包括例如人名、地名、法院名、涉案金额、罚款金额、罪名、刑期、毒品数量、日期时间、法条等。
例如用户在搜索平台输入搜索条件文本,“查询北京市2017年盗窃罪被判10年以上的案件”,这段非结构化的搜索条件文本中包含的第一实体文本和对应的第一实体类型如表1所列。
表1搜索条件文本中包含的实体文本和对应的实体类型举例
上述搜索意图识别单元20中,上述搜索意图为搜索条件文本的语意所反映的用户的意图,可以采用现有技术中的意图识别方法对搜索条件文本进行意图识别。上述预设意图识别方法包括如词表穷举法,通过词表直接匹配的方式来获取查询意图;规则解析法,通过预先制定的规则来解析获取查询意图;机器学习法,针对法律数据库的文本特点,定义不同的查询意图类别,对于用户输入的搜索条件文本,根据统计分类模型计算出每一个查询意图的概率,给出最终的查询意图。本申请在此不再对意图识别的具体过程进行赘述。上述各所述第一实体文本分别对应的搜索意图包括如:搜索条件文本中包含多个第一实体文本,在搜索时多个第一实体文本之间的关系是“和”关系还是“或”关系;搜索条件文本中包含的日期时间文本(如10年以上)表示用户希望搜索大于10年这一时间范围,而不是正好10年这一时间点。
上述搜索表达式构造单元30中,根据搜索意图先对每条第一实体文本和每条第一实体文本对应的第一实体类型分别构造搜索式。例如,对于表1中的第一实体类型:term ofimprisonment;第一实体文本:“10年”,通过搜索意图识别出是范围搜索(即搜索的是大于10年的时间范围),即构造出搜索式为"term_of_imprisonment":“>10”。再例如,对于表1中的第一实体类型:“province”;第一实体文本:“北京市”,构造出搜索式为“province”:“北京”。在每条搜索式均构造完毕后,再根据搜索意图对各个搜索式进行连接,例如,对于表1中的多个第一实体文本之间的关系是“和”关系(即需要搜索与多个第一实体类型的第一实体文本均相匹配),则构造出最终的搜索表达式为:“must”:[“term”:{"Province":“北京”}},{"term":{"accusation":"盗窃罪"}},{"term":{"datetime":"2017"}},{"term":{"term_of_imprisonment":gt 10}}]。
上述搜索结果获取单元40中,上述文书数据库中存储了非结构化文书,上述非结构化文书包括裁判文书、检查文书、法律法规等。文书数据库中存储的非结构化文书为预先标注过的非结构化文书,包括至少一条第二实体文本,以及各所述第二实体文本分别对应的第二实体类型。其中,第二实体文本为在非结构化文书中具有特定意义的文本,与前述第一实体文本相似,根据具体搜索场景来预先定义好具有特定意义的文本,例如,对于法律文本的搜索场景,在非结构文书中所包括的人名文本、地名文本、法院名文本、涉案金额文本、罚款金额文本、罪名文本、刑期文本、毒品数量文本、日期时间文本、法条文本等通常为用户关注的内容,可以将这些具有特定意义的文本预先定义好,根据预先定义好的具有特定意义的文本,对非结构化文书的第二实体文本进行标注。同时,非结构化文书中还标注了每条第二实体文本对应的第二实体类型。第二实体类型为第二实体文本对应的实体类型,包括例如人名、地名、法院名、涉案金额、罚款金额、罪名、刑期、毒品数量、日期时间、法条等,第一实体类型所包含的种类在第二实体类型所包含的种类的范围内。对应地,在非结构化文书中,除第二实体文本以外的文本,定义为不具有特定意义的文本,则被归类为第二非实体文本。非结构化文书可以采用BIO标注,B为Begin,表示开始;I为Intermediate,表示中间;O为Other,表示其它;其中B标签代表实体文本的开头第一个字,I代表实体文本除了第一个字之外的字,O代表非实体文本。上述文书数据库中存储的非结构化文书均经过BIO标注。
例如,对于一段非结构化文书样例:“本院再审认为,原审被告人尹家彩秘密窃取他人财物,参与作案6起,盗得财物共计人民币18612元,数额较大,其行为已构成盗窃罪。”经BIO标注后得到的标注过的非结构化文书为:“本/O院/O再/O审/O认/O为/O,/O原/O审/O被/O告/O人/O尹/B-person家/I-person彩/I-person秘/O密/O窃/O取/O他/O人/O财/O物/O,/O参/O与/O作/O案/O 6/O起/O,/O盗/O得/O财/O物/O共/O计/O人/O民/O币/O 1/B-money8/I-money 6/I-money 1/I-money 2/I-money元/I-money,/O数/O额/O较/O大/O,/O其/O行/O为/O已/O构/O成/O盗/B-accusation窃/I-accusation罪/I-accusation。/O”其中,实体文本的开头第一个字采用B,实体文本除了第一个字之外的字采用I,其余非实体文本采用O,并对实体文本对应的实体类型进行标注,如“person”、“money”等。
根据搜索表达式在文书数据库中进行匹配搜索,将搜索表达式中的第一实体文本和第一实体类型与文书数据库中的标注过的非结构化文书进行匹配。例如搜索表达式中包括第一实体文本为100,对应的第一实体类型为money;则在文书数据库中查找时,只有匹配money:100的非结构化文书才会被认为与搜索表达式相匹配;而如果是某某人被判刑100天的宣判文书,虽然也有第二实体文本100,但第二实体类型与第一实体类型不匹配,则判定与搜索表达式不匹配,该宣判文书不会被列入搜索结果中。上述搜索结果用于按照预设排列顺序显示搜索得到的指定非结构化文书,例如可以按照时间顺序或相关度顺序逐条显示各条指定非结构化文书。
上述搜索结果呈现单元50中,将上述搜索结果呈现于上述客户端,则用户从客户端界面看到基于搜索条件文本返回的搜索结果,即,用户在客户端界面看到按照预设排列顺序进行排序的各条指定非结构化文书。
本实施例的非结构化文书的搜索装置,首先从搜索条件文本中获取其中包含的至少一条第一实体文本和每条第一实体文本分别对应的第一实体类型;再根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图;然后根据搜索意图,将所有第一实体文本以及各第一实体文本分别对应的第一实体类型构造为搜索表达式;再将搜索表达式在文书数据库中进行匹配,生成搜索结果;最后将所述搜索结果呈现于所述客户端。本申请实施例在搜索非结构化文书时,通过上述的方法,可以实现对用户输入的搜索条件文本的精准解析,进而自动构造准确的搜索表达式,从而实现非结构化文书的准确检索,有利于提高用户检索法律文书的效率,有利于法官、检察官、律师等用户对法律数据的深入挖掘和分析。
在一个实施例中,上述条件文本解析单元10,包括:
条件获取子单元,用于从搜索平台获取非结构化的所述搜索条件文本;
条件标注子单元,用于将所述搜索条件文本输入至自动标注模型中进行标注,以得到标注过的搜索条件文本,所述标注过的搜索条件文本中包括至少一条所述第一实体文本和每条所述第一实体文本分别对应的第一实体类型。
本实施例中,上述条件获取子单元中,上述搜索平台包括法律大数据对应的搜索引擎、搜索网页、应用程序等。用户通过在搜索平台的搜索条件框中输入搜索条件文本,上述搜索条件文本可以是一段包含多个不同类型的第一实体文本的非结构化文本,例如“查询北京市2017年盗窃罪被判10年以上的案件”。
上述条件标注子单元中,上述自动标注模型的输入为非结构化的文本,输出结果为对非结构化的文本所包括的实体文本和非实体文本进行BIO标注后的文本。在本实施例中,将搜索条件文本输入至上述自动标注模型中,输出为对搜索条件文本中的第一实体文本、第一实体类型和第一非实体文本进行BIO标注后得到的标注过的搜索条件文本。例如,将搜索条件文本“查询北京市2017年盗窃罪被判10年以上的案件”通过自动标注模型进行标注,则得到的标注过的搜索条件文本为“查/O询/O北/B-province京/I-province市/I-province 2/B-datetime 0/I-datetime 1/I-datetime 7/I-datetime年/I-datetime盗/B-accusation窃/I-accusation罪/I-accusation被/O判/O 1/B-term of imprisonment0/I-term of imprisonment年I-term of imprisonment以I-term of imprisonment上I-term of imprisonment的/O案/O件/O”,从标注过的搜索条件文本中即可获取如表1所列的各第一实体文本以及各第一实体文本对应的第一实体类型。
在一个实施例中,上述非结构化文书搜索装置,包括:
文书获取单元,用于获取初始非结构化文书;
文书标注单元,用于将所述初始非结构化文书输入至所述自动标注模型中进行标注,以得到标注过的非结构化文书,标注过的所述非结构化文书中包括至少一条第二实体文本,以及各所述第二实体文本分别对应的第二实体类型。
本实施例中,上述文书获取单元中,上述初始非结构化文书为未经标记处理的非结构化文书,包括例如裁判文书、检查文书、法律法规等,可以从相应的文书发布网站来获取上述非结构化文书。
上述文书标注单元中,将初始非结构化文书输入至上述自动标注模型中,输出为对初始非结构化文书中的第二实体文本、第二实体类型和第二非实体文本进行BIO标注后得到的标注过的非结构化文书。例如,对于一段非结构化文书样例:“本院再审认为,原审被告人尹家彩秘密窃取他人财物,参与作案6起,盗得财物共计人民币18612元,数额较大,其行为已构成盗窃罪。”经BIO标注后得到的标注过的非结构化文书为:“本/O院/O再/O审/O认/O为/O,/O原/O审/O被/O告/O人/O尹/B-person家/I-person彩/I-person秘/O密/O窃/O取/O他/O人/O财/O物/O,/O参/O与/O作/O案/O 6/O起/O,/O盗/O得/O财/O物/O共/O计/O人/O民/O币/O 1/B-money 8/I-money 6/I-money 1/I-money 2/I-money元/I-money,/O数/O额/O较/O大/O,/O其/O行/O为/O已/O构/O成/O盗/B-accusation窃/I-accusation罪/I-accusation。/O”。
在一个实施例中,上述条件文本解析单元10,包括:
语料获取子单元,用于获取训练语料;
训练集获取子单元,用于对所述训练语料中的实体文本、实体类型和非实体文本进行标注,得到训练集;
模型训练子单元,用于将所述训练集输入至双向长短时记忆-条件随机场模型中进行训练,以得到所述自动标注模型。
本实施例中,上述语料获取子单元中,上述训练语料用于训练自动标注模型,可以将现有的法律文书作为训练语料,也可以由开发人员根据相关法律词典编写训练语料。
上述训练集获取子单元中,对训练语料中的实体文本、实体类型和非实体文本进行BIO标注,实体文本的开头第一个字采用B,实体文本除了第一个字之外的字采用I,其余非实体文本采用O,在实体文本的B/I标注之后再标注上实体类型。上述实体文本为在训练语料中具有特定意义的文本,根据具体应用场景来预先定义好具有特定意义的文本,例如,对于法律文本的搜索场景,在训练语料中所包括的人名文本、地名文本、法院名文本、涉案金额文本、罚款金额文本、罪名文本、刑期文本、毒品数量文本、日期时间文本、法条文本等通常为用户关注的内容,可以将这些具有特定意义的文本预先定义好,根据预先定义好的具有特定意义的文本,标注训练语料中的实体文本。同时,在训练语料中个,还对每条实体文本对应的实体类型进行标注。上述实体类型为实体文本对应的实体类型,包括例如人名、地名、法院名、涉案金额、罚款金额、罪名、刑期、毒品数量、日期时间、法条等。对应地,在训练语料中,除上述实体文本以外的文本,定义为不具有特定意义的文本则被归类为非实体文本。
上述模型训练子单元中,上述双向长短时记忆-条件随机场模型的网络输入为训练语料,输出结果为对训练语料包含的实体文本、实体类型和非实体文本进行标注后的标注结果。长短时记忆模型是一种特殊类型的RNN(Recurrent Netural Networks,循环神经网络),能够学习长期的依赖关系。双向循环神经网络的基本思想是提出每一个训练序列向前和向后分别是两个LSTM(Long Short-Term Memory,长短时记忆模型),而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。条件随机场是给定一组输入随机变量条件下,另外一组输出随机变量的条件概率分布模型。对于给定的长度为m的序列X,假设标注的结果为[y1,…,ym],则命名实体标注问题可以表示在已知序列X的条件下,找出使得[y1,…,ym]的概率P(y1,…,ym)最大的序列[Y1,…,Ym]。具体地,将上述训练语料输入上述双向长短时记忆-条件随机场模型中,同时经过向前推算以及向后推算后输出连接至输出层,提供给输出层训练语料中每一个字的完整的过去和未来的上下文信息,将上下文信息结合条件随机场,对训练语料所包括的实体文本、实体类型和非实体文本进行区分标注,输出对训练语料的标注结果。
在一个实施例中,上述训练集获取子单元,包括:
标注模板获取模块,用于获取预设标注模板,其中,所述预设标注模板中关联存储了各个预定义实体文本与各个所述预定义实体文本对应的实体类型;
第一训练语料标注模块,用于将所述训练语料包含的,与任一所述预定义实体文本相同的文本作为所述实体文本,并在所述训练语料中对所述实体文本进行标注,得到第一标注文本;
第二训练语料标注模块,用于从所述预设标注模板中,查找与所述实体文本对应的实体类型,并在所述第一标注文本中对所述实体文本对应的实体类型进行标注,得到第二标注文本;
第三训练语料标注模块,用于将所述第二标注文本中未标注的文本作为所述非实体文本,并在所述第二标注文本中对所述非实体文本进行标注,得到标注后的训练语料;
训练集生成模块,用于将所述标注后的训练语料添加至所述训练集中。
在本实施例中,通过上述标注模板获取模块、第一训练语料标注模块、第二训练语料标注模块、第三训练语料标注模块和训练集生成模块进行训练语料中的实体文本、实体类型和非实体文本进行标注,减少人工标注训练语料的工作量。将常用的实体文本,例如“中级人民法院”、“诈骗罪”等,加入预设标注模板中,并在预设标注模板中对各个实体文本模板对应的实体类型进行标记,例如“中级人民法院”对应的实体类型为“法院名”,“诈骗罪”对应的实体类型为“罪名”。服务器通过将训练语料与预设标注模板进行匹配,对训练语料中的实体文本、实体类型和非实体文本依序自动进行BIO标注。得到的标注后的训练语料添加至训练集中,用于训练自动标注模型。得到的标注后的训练语料,可能存在少量错误,还可以进一步进行人工修正,提高训练语料的准确性。通过与预设标注模板进行匹配,自动进行训练语料的标注,减少了人工标注的工作量,有利于快速生成用于训练自动标注模型的训练集。
在另一个具体实施例中,还可以通过现有的通用标注模型对训练语料进行标注。由于通用标注模型不是针对特定的法律文书训练出来的标注模型,所以需要再进行人工修正错误,以得到用于自动标注模型的训练集。通过通用标注模型对训练语料先进行标注,也有利于大大减少人工标注的工作量,有利于快速生成用于训练自动标注模型的训练集。
在一个实施例中,上述搜索结果获取单元40,包括:
搜索表达式匹配子单元,用于分别将各标注过的所述非结构化文书中,所包括的所述第二实体文本和各所述第二实体文本分别对应的第二实体类型,与所述搜索表达式进行匹配,选取与所述搜索表达式相匹配的各条非结构化文书作为各条指定非结构化文书;
搜索结果生成子单元,用于将各条所述指定非结构化文书,按照预设排列顺序进行排序,将排序后的各条所述指定非结构化文书作为搜索结果。
本实施例中,上述搜索表达式匹配子单元中,根据搜索表达式在文书数据库中进行匹配搜索,将搜索表达式中的第一实体文本和第一实体类型与文书数据库中的标注过的非结构化文书进行匹配。例如搜索表达式中包括第一实体文本为100,对应的第一实体类型为money;则在文书数据库中匹配时,只有与money:100均匹配的非结构化文书才会被认为与搜索表达式相匹配;而如果是某某人被判刑100天的宣判文书,虽然也有第二实体文本100,但第二实体类型与第一实体类型不匹配,则判定与搜索表达式不匹配,该宣判文书不会被列入搜索结果中。在搜索非结构化文书时,可以实现根据搜索表达式对非结构化文书进行精准匹配,从而实现非结构化文书的准确检索。
上述搜索结果生成子单元中,上述搜索结果用于按照预设排列顺序显示搜索得到的指定非结构化文书,例如可以按照时间顺序或相关度顺序逐条显示各条指定非结构化文书。
在一个实施例中,上述搜索表达式构造单元30,包括:
搜索式生成子单元,用于将每条所述第一实体文本和与每条所述第一实体文本对应的第一实体类型设为一组搜索式;
判断子单元,用于判断所有所述搜索式的组数是否大于1个;
表达式生成子单元,用于若所述搜索式的组数大于1个,则根据所述搜索意图,将各组所述搜索式通过逻辑连接符连接为所述搜索表达式,所述逻辑连接符包括“和”、“或”。
本实施例中,上述搜索式生成子单元中,先对每条第一实体文本和每条第一实体文本对应的第一实体类型分别构造搜索式。例如,对于表1中的第一实体类型:term ofimprisonment;第一实体文本:“10年”,通过搜索意图识别出是范围搜索(即搜索的是大于10年的时间范围),即构造出搜索式为"term_of_imprisonment":“>10”。再例如,对于表1中的第一实体类型:“province”;第一实体文本:“北京市”,构造出搜索式为“province”:“北京”。
上述判断子单元和表达式生成子单元中,在每条搜索式均构造完毕后,如果搜索式的组数大于1组,则需要建立各组搜索式之间的连接关系。再根据搜索意图对各个搜索式通过逻辑连接符进行连接,例如,对于表1中的多个第一实体文本之间的关系是“和”关系(即需要搜索与多个第一实体类型的第一实体文本均相匹配),则构造出最终的搜索表达式为:“must”:[“term”:{"Province":“北京”}},{"term":{"accusation":"盗窃罪"}},{"term":{"datetime":"2017"}},{"term":{"term_of_imprisonment":gt 10}}]。在其它的实施例中,不同搜索式之间还可以是“或”关系,则根据“或”关系生成对应的搜索表达式,本申请在此不做赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储非结构化文书等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种非结构化文书搜索方法。
上述处理器执行上述非结构化文书搜索方法的步骤:
解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型;
根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图,所述搜索意图包括各所述第一实体文本分别对应的搜索意图;
根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式;
将所述搜索表达式在文书数据库中进行匹配,生成搜索结果,其中,所述文书数据库中存储了至少一条非结构化文书,所述搜索结果中包含与所述搜索表达式相匹配的各条非结构化文书;
将所述搜索结果呈现于所述客户端。
在一实施例中,上述处理器解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型的步骤,包括:
从搜索平台获取非结构化的所述搜索条件文本;
将所述搜索条件文本输入至预训练的自动标注模型中进行标注,以得到标注过的搜索条件文本,所述标注过的搜索条件文本中包括至少一条所述第一实体文本和每条所述第一实体文本分别对应的第一实体类型。
在一实施例中,上述处理器将所述搜索表达式在文书数据库中进行匹配,生成搜索结果的步骤前,包括:
获取初始非结构化文书;
将所述初始非结构化文书输入至所述自动标注模型中进行标注,以得到标注过的非结构化文书,标注过的所述非结构化文书中包括至少一条第二实体文本,以及各所述第二实体文本分别对应的第二实体类型。
在一实施例中,上述处理器从搜索平台获取非结构化的所述搜索条件文本的步骤前,包括:
获取训练语料;
对所述训练语料中的实体文本、实体类型和非实体文本进行标注,得到训练集;
将所述训练集输入至双向长短时记忆-条件随机场模型中进行训练,以得到所述自动标注模型。
在一实施例中,上述处理器对所述训练语料中的实体文本、实体类型和非实体文本进行标注,得到训练集的步骤,包括:
获取预设标注模板,其中,所述预设标注模板中关联存储了各个预定义实体文本与各个所述预定义实体文本对应的实体类型;
将所述训练语料包含的,与任一所述预定义实体文本相同的文本作为所述实体文本,并在所述训练语料中对所述实体文本进行标注,得到第一标注文本;
从所述预设标注模板中,查找与所述实体文本对应的实体类型,并在所述第一标注文本中对所述实体文本对应的实体类型进行标注,得到第二标注文本;
将所述第二标注文本中未标注的文本作为所述非实体文本,并在所述第二标注文本中对所述非实体文本进行标注,得到标注后的训练语料;
将所述标注后的训练语料添加至所述训练集中。
在一实施例中,上述处理器将所述搜索表达式在文书数据库中进行匹配,生成搜索结果的步骤,包括:
分别将各标注过的所述非结构化文书中,所包括的所述第二实体文本和各所述第二实体文本分别对应的第二实体类型,与所述搜索表达式进行匹配,选取与所述搜索表达式相匹配的各条非结构化文书作为各条指定非结构化文书;
将各条所述指定非结构化文书,按照预设排列顺序进行排序,将排序后的各条所述指定非结构化文书作为搜索结果。
在一实施例中,上述处理器根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式的步骤,包括:
将每条所述第一实体文本和与每条所述第一实体文本对应的第一实体类型设为一组搜索式;
判断所有所述搜索式的组数是否大于1个;
若是,则根据所述搜索意图,将各组所述搜索式通过逻辑连接符连接为所述搜索表达式,所述逻辑连接符包括“和”、“或”。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种非结构化文书搜索方法,具体为:
解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型;
根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图,所述搜索意图包括各所述第一实体文本分别对应的搜索意图;
根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式;
将所述搜索表达式在文书数据库中进行匹配,生成搜索结果,其中,所述文书数据库中存储了至少一条非结构化文书,所述搜索结果中包含与所述搜索表达式相匹配的各条非结构化文书;
将所述搜索结果呈现于所述客户端。
在一实施例中,上述处理器解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型的步骤,包括:
从搜索平台获取非结构化的所述搜索条件文本;
将所述搜索条件文本输入至预训练的自动标注模型中进行标注,以得到标注过的搜索条件文本,所述标注过的搜索条件文本中包括至少一条所述第一实体文本和每条所述第一实体文本分别对应的第一实体类型。
在一实施例中,上述处理器将所述搜索表达式在文书数据库中进行匹配,生成搜索结果的步骤前,包括:
获取初始非结构化文书;
将所述初始非结构化文书输入至所述自动标注模型中进行标注,以得到标注过的非结构化文书,标注过的所述非结构化文书中包括至少一条第二实体文本,以及各所述第二实体文本分别对应的第二实体类型。
在一实施例中,上述处理器从搜索平台获取非结构化的所述搜索条件文本的步骤前,包括:
获取训练语料;
对所述训练语料中的实体文本、实体类型和非实体文本进行标注,得到训练集;
将所述训练集输入至双向长短时记忆-条件随机场模型中进行训练,以得到所述自动标注模型。
在一实施例中,上述处理器对所述训练语料中的实体文本、实体类型和非实体文本进行标注,得到训练集的步骤,包括:
获取预设标注模板,其中,所述预设标注模板中关联存储了各个预定义实体文本与各个所述预定义实体文本对应的实体类型;
将所述训练语料包含的,与任一所述预定义实体文本相同的文本作为所述实体文本,并在所述训练语料中对所述实体文本进行标注,得到第一标注文本;
从所述预设标注模板中,查找与所述实体文本对应的实体类型,并在所述第一标注文本中对所述实体文本对应的实体类型进行标注,得到第二标注文本;
将所述第二标注文本中未标注的文本作为所述非实体文本,并在所述第二标注文本中对所述非实体文本进行标注,得到标注后的训练语料;
将所述标注后的训练语料添加至所述训练集中。
在一实施例中,上述处理器将所述搜索表达式在文书数据库中进行匹配,生成搜索结果的步骤,包括:
分别将各标注过的所述非结构化文书中,所包括的所述第二实体文本和各所述第二实体文本分别对应的第二实体类型,与所述搜索表达式进行匹配,选取与所述搜索表达式相匹配的各条非结构化文书作为各条指定非结构化文书;
将各条所述指定非结构化文书,按照预设排列顺序进行排序,将排序后的各条所述指定非结构化文书作为搜索结果。
在一实施例中,上述处理器根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式的步骤,包括:
将每条所述第一实体文本和与每条所述第一实体文本对应的第一实体类型设为一组搜索式;
判断所有所述搜索式的组数是否大于1个;
若是,则根据所述搜索意图,将各组所述搜索式通过逻辑连接符连接为所述搜索表达式,所述逻辑连接符包括“和”、“或”。
综上所述,为本申请实施例中提供的非结构化文书搜索方法、装置、、计算机设备和存储介质,首先从搜索条件文本中获取其中包含的至少一条第一实体文本和每条第一实体文本分别对应的第一实体类型;再根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图;然后根据搜索意图,将所有第一实体文本以及各第一实体文本分别对应的第一实体类型构造为搜索表达式;再将搜索表达式在文书数据库中进行匹配,生成搜索结果;最后将所述搜索结果呈现于所述客户端。本申请在搜索非结构化文书时,通过上述的方法,可以实现对用户输入的搜索条件文本的精准解析,进而自动构造准确的搜索表达式,从而实现非结构化文书的准确检索,有利于提高用户检索法律文书的效率,有利于法官、检察官、律师等用户对法律数据的深入挖掘和分析。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种非结构化文书搜索方法,其特征在于,包括:
解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型;
根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图,所述搜索意图包括各所述第一实体文本分别对应的搜索意图;
根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式;
将所述搜索表达式在文书数据库中进行匹配,生成搜索结果,其中,所述文书数据库中存储了至少一条非结构化文书,所述搜索结果中包含与所述搜索表达式相匹配的各条非结构化文书;
将所述搜索结果呈现于所述客户端。
2.如权利要求1所述的非结构化文书搜索方法,其特征在于,所述解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型的步骤,包括:
从搜索平台获取非结构化的所述搜索条件文本;
将所述搜索条件文本输入至预训练的自动标注模型中进行标注,以得到标注过的搜索条件文本,所述标注过的搜索条件文本中包括至少一条所述第一实体文本和每条所述第一实体文本分别对应的第一实体类型。
3.如权利要求2所述的非结构化文书搜索方法,其特征在于,所述将所述搜索表达式在文书数据库中进行匹配,生成搜索结果的步骤前,包括:
获取初始非结构化文书;
将所述初始非结构化文书输入至所述自动标注模型中进行标注,以得到标注过的非结构化文书,标注过的所述非结构化文书中包括至少一条第二实体文本,以及各所述第二实体文本分别对应的第二实体类型。
4.如权利要求2所述的非结构化文书搜索方法,其特征在于,所述从搜索平台获取非结构化的所述搜索条件文本的步骤前,包括:
获取训练语料;
对所述训练语料中的实体文本、实体类型和非实体文本进行标注,得到训练集;
将所述训练集输入至双向长短时记忆-条件随机场模型中进行训练,以得到所述自动标注模型。
5.如权利要求4所述的非结构化文书搜索方法,其特征在于,所述对所述训练语料中的实体文本、实体类型和非实体文本进行标注,得到训练集的步骤,包括:
获取预设标注模板,其中,所述预设标注模板中关联存储了各个预定义实体文本与各个所述预定义实体文本对应的实体类型;
将所述训练语料包含的,与任一所述预定义实体文本相同的文本作为所述实体文本,并在所述训练语料中对所述实体文本进行标注,得到第一标注文本;
从所述预设标注模板中,查找与所述实体文本对应的实体类型,并在所述第一标注文本中对所述实体文本对应的实体类型进行标注,得到第二标注文本;
将所述第二标注文本中未标注的文本作为所述非实体文本,并在所述第二标注文本中对所述非实体文本进行标注,得到标注后的训练语料;
将所述标注后的训练语料添加至所述训练集中。
6.如权利要求3所述的非结构化文书搜索方法,其特征在于,所述将所述搜索表达式在文书数据库中进行匹配,生成搜索结果的步骤,包括:
分别将各标注过的所述非结构化文书中,所包括的所述第二实体文本和各所述第二实体文本分别对应的第二实体类型,与所述搜索表达式进行匹配,选取与所述搜索表达式相匹配的各条非结构化文书作为各条指定非结构化文书;
将各条所述指定非结构化文书,按照预设排列顺序进行排序,将排序后的各条所述指定非结构化文书作为搜索结果。
7.如权利要求1所述的非结构化文书搜索方法,其特征在于,所述根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式的步骤,包括:
将每条所述第一实体文本和与每条所述第一实体文本对应的第一实体类型设为一组搜索式;
判断所有所述搜索式的组数是否大于1个;
若是,则根据所述搜索意图,将各组所述搜索式通过逻辑连接符连接为所述搜索表达式,所述逻辑连接符包括“和”、“或”。
8.一种非结构化文书搜索装置,其特征在于,包括:
条件文本解析单元,用于解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型;
搜索意图识别单元,用于根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图,所述搜索意图包括各所述第一实体文本分别对应的搜索意图;
搜索表达式构造单元,用于根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式;
搜索结果获取单元,用于将所述搜索表达式在文书数据库中进行匹配,生成搜索结果,其中,所述文书数据库中存储了至少一条非结构化文书,所述搜索结果中包含与所述搜索表达式相匹配的各条非结构化文书;
搜索结果呈现单元,用于将所述搜索结果呈现于所述客户端。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910463024.3A CN110347785A (zh) | 2019-05-30 | 2019-05-30 | 非结构化文书搜索方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910463024.3A CN110347785A (zh) | 2019-05-30 | 2019-05-30 | 非结构化文书搜索方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110347785A true CN110347785A (zh) | 2019-10-18 |
Family
ID=68174472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910463024.3A Pending CN110347785A (zh) | 2019-05-30 | 2019-05-30 | 非结构化文书搜索方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110347785A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220824A (zh) * | 2020-11-25 | 2021-08-06 | 科大讯飞股份有限公司 | 数据检索方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1573744A (zh) * | 2003-05-30 | 2005-02-02 | 国际商业机器公司 | 进行非结构化信息管理和自动文本分析的系统和方法 |
CN102779149A (zh) * | 2011-05-10 | 2012-11-14 | 索尼公司 | 信息处理装置,信息处理方法,程序和信息处理系统 |
CN106777140A (zh) * | 2016-12-19 | 2017-05-31 | 北京天广汇通科技有限公司 | 用于非结构化文档搜索的方法及装置 |
CN108846003A (zh) * | 2018-04-20 | 2018-11-20 | 广东电网有限责任公司 | 一种非结构化机器数据处理方法及装置 |
CN109522393A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
-
2019
- 2019-05-30 CN CN201910463024.3A patent/CN110347785A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1573744A (zh) * | 2003-05-30 | 2005-02-02 | 国际商业机器公司 | 进行非结构化信息管理和自动文本分析的系统和方法 |
CN102779149A (zh) * | 2011-05-10 | 2012-11-14 | 索尼公司 | 信息处理装置,信息处理方法,程序和信息处理系统 |
CN106777140A (zh) * | 2016-12-19 | 2017-05-31 | 北京天广汇通科技有限公司 | 用于非结构化文档搜索的方法及装置 |
CN108846003A (zh) * | 2018-04-20 | 2018-11-20 | 广东电网有限责任公司 | 一种非结构化机器数据处理方法及装置 |
CN109522393A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220824A (zh) * | 2020-11-25 | 2021-08-06 | 科大讯飞股份有限公司 | 数据检索方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pasca et al. | High performance question/answering | |
CN108829719A (zh) | 一种非事实类问答答案选择方法及系统 | |
CN107315738B (zh) | 一种文本信息的创新度评估方法 | |
CN110321432A (zh) | 文本事件信息提取方法、电子装置和非易失性存储介质 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN106503239A (zh) | 一种法律信息查询的方法和装置 | |
CN109933664A (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN108647225A (zh) | 一种电商黑灰产舆情自动挖掘方法和系统 | |
CN106599032A (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN111125295B (zh) | 一种基于lstm的获取食品安全问题答案的方法及系统 | |
CN110297889A (zh) | 一种基于特征融合的企业情感倾向分析方法 | |
CN117077792B (zh) | 一种基于知识图谱生成提示数据的方法及装置 | |
CN109472022A (zh) | 基于机器学习的新词识别方法及终端设备 | |
WO2022051436A1 (en) | Personalized learning system | |
CN113821587B (zh) | 文本相关性确定方法、模型训练方法、装置及存储介质 | |
CN106970907A (zh) | 一种语义识别方法 | |
Guan et al. | Hierarchical neural network for online news popularity prediction | |
CN106970909A (zh) | 一种二次匹配语义的语义分析方法 | |
CN111274366A (zh) | 搜索推荐方法及装置、设备、存储介质 | |
CN110347785A (zh) | 非结构化文书搜索方法、装置、计算机设备和存储介质 | |
CN112966518B (zh) | 一种面向大规模在线学习平台的优质答案识别方法 | |
KR20120042562A (ko) | 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치 | |
CN109471927A (zh) | 一种知识库及其建立、问答方法及应用装置 | |
CN107463845B (zh) | 一种sql注入攻击的检测方法、系统和计算机处理设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |