CN107894981A - 一种案件语义要素的自动抽取方法 - Google Patents
一种案件语义要素的自动抽取方法 Download PDFInfo
- Publication number
- CN107894981A CN107894981A CN201711332273.6A CN201711332273A CN107894981A CN 107894981 A CN107894981 A CN 107894981A CN 201711332273 A CN201711332273 A CN 201711332273A CN 107894981 A CN107894981 A CN 107894981A
- Authority
- CN
- China
- Prior art keywords
- case
- semantic feature
- merit
- dictionary
- crime
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种案件语义要素的自动抽取方法,(1)序列标注模块:根据预先训练好的中文序列标注模型对简要案情文本进行词性标注,识别出里面的名词,动词和动名词;(2)词义相似模块:利用词义相似算法丰富种子词库;(3)调优模块:多次人工校准,对要素提取结果进行进一步的调优;(4)分类词库模块:要素按类别形成类别词库。该案件语义要素的自动抽取方法,实现了从繁杂无规律的简要案情中,自动抽取案件语义要素,大大提升了案件语义要素提取的效率,降低了人力抽取成本,同时也可以将此系统用于公安行业的其他非结构化文本信息的语义理解分析,为案件的关联分析提供有效方法,提高办案效率。
Description
技术领域
本发明涉及自然语言处理及机器学习技术领域,具体为一种案件语义要素的自动抽取方法。
背景技术
随着自然语言处理和机器学习的快速发展,这些技术已经广泛应用于搜索引擎、智能翻译、机器问答、用户推荐、舆情监测等相关行业。公安机关在长期的信息化进程中积累了大量的数据信息,但现阶段对数据的应用还停留在对结构化数据的简单查询,尚未对非结构化或半结构化数据开展深度应用。与此同时,这些非结构化或半结构化数据还存在很多问题:信息格式不统一、信息描述多样化等。基于此,如何在描述纷繁的警务案情文本中提取出有价值的语义要素信息,将会为公安后期刑侦决策提供坚实基础。
在挖掘案情要素过程中,需要利用中文序列标注工具来提供种子词和最后的各要素提取。目前阶段,中文序列标注方法较多采用隐马尔科夫模型或者条件随机场等传统方法。由于HMM和CRF各有局限,在挖掘案情要素时使用自主研发的半自动的序列标注系统—基于双向的LSTM模型,CRF模型以及词库积累的中文序列标注系统。
在挖掘案情要素过程中,需要利用词义近似算法来计算某些要素之间的相似性。目前计算词语之间的相似性,最简单的词向量方式是one-hot方式。但这种词表示有两个缺点:(1)容易产生维数灾难,尤其是作为深度学习算法的输入时,算法性能受到严重影响;(2)存在“词汇鸿沟”现象,也就是说不能很好地刻画词与词之间的相似性。另一种词向量表示方法就是Distributed Representation,它最早是Hinton于1986年提出的,可以克服one-hot表示方法的缺点。
所以在大数据和人工智能的发展背景下,公安领域中研发一套自动提取案件语义要素的方法是十分必需的。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种案件语义要素的自动抽取方法,解决了容易产生维数灾难,尤其是作为深度学习算法的输入时,算法性能受到严重影响;存在“词汇鸿沟”现象,也就是说不能很好地刻画词与词之间相似性的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种案件语义要素的自动抽取方法,包括如下步骤:
S1、首先根据要素可能出现的词性,利用预先训练好的序列标注模对简要案情的进行词性标注,识别出里面的名词,动词和动名词;
S2、作案工具和涉案物品从名词中抽取,人工进行分类标注少数简要案情中的作案工具和涉案物品;作案手段从动词和动名词中抽取,并且还需要识别作案手段动词和名词的结合,最终形成种子词库;
S3、根据人工标注的种子词库,利用词义相似算法找到更多相类似的词,以便丰富词库;由于词性标注是基于已有的简要案情进行的,为了之后新增案件语义要素抽取可以获得较高的准确率,利用相似算法获取相似词是十分必要的;
S4、利用校对的词库结合已训练好的序列标注模型对所有案件的简要案情进行相关要素的抽取,对抽取的要素进行进一步调优;
S5、要素按类别形成类别词库,结合序列标注算法和正则化处理方法,对新输入的简要案情文本进行自动抽取,将抽取的语义要素对应案件编号入库。
优选的,在S3中,种子词库可以采用作案工具,涉案物品、作案手段、侵害对象、选择场所等。
(三)有益效果
本发明提供了一种案件语义要素的自动抽取方法。具备以下有益效果:该案件语义要素的自动抽取方法,通过该方法封闭式测试涉案物品准确率达到80%以上,作案手段、作案工具准确率达到90%以上;该方法实现了从繁杂无规律的简要案情中,自动抽取案件语义要素,大大提升了案件语义要素提取的效率,降低了人力抽取成本,同时也可以将此系统用于公安行业的其他非结构化文本信息的语义理解分析,为案件的关联分析提供有效方法,提高办案效率。
附图说明
图1为本发明结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种案件语义要素的自动抽取方法,如图1所示,包括如下步骤:
S1、首先根据要素可能出现的词性,利用预先训练好的序列标注模对简要案情的进行词性标注,识别出里面的名词,动词和动名词;如涉案物品是名词,作案工具是名词,作案手段是动名词或者动词和名词的组合。
S2、作案工具和涉案物品从名词中抽取,人工进行分类标注少数简要案情中的作案工具和涉案物品;作案手段从动词和动名词中抽取,并且还需要识别作案手段动词和名词的结合,最终形成种子词库;比如“剪刀”、“钳子”、“钢锯”之类的词语为作案工具;“钱包”、“身份证”、“手机”之类的词语为涉案物品;“撬”“翻”之类的词语为作案手段动词,“门”、“窗”之类的词语为作案手段名词,结合起来就是“撬门”,“翻窗”等。
S3、根据人工标注的种子词库,利用词义相似算法找到更多相类似的词,以便丰富词库;由于词性标注是基于已有的简要案情进行的,为了之后新增案件语义要素抽取可以获得较高的准确率,利用相似算法获取相似词是十分必要的;比如:由“棒”获取近义词“铁棒”、“铜棒”、“木棒”、“撬棒”、“棒子”、“银棒”等,依据可能性排除“银棒”、“铜棒”,将其他词加入对应的词库中。
S4、利用校对的词库结合已训练好的序列标注模型对所有案件的简要案情进行相关要素的抽取,对抽取的要素进行进一步调优;
S5、要素按类别形成类别词库,结合序列标注算法和正则化处理方法,对新输入的简要案情文本进行自动抽取,将抽取的语义要素对应案件编号入库。
本发明中,在S3中,种子词库可以采用作案工具,涉案物品、作案手段、侵害对象、选择场所等。
基于此,根据大数据趋势下的公安侦防的需求,为了实现案情要素(涉案物品、作案手段、作案工具)的深入挖掘,形成结构化数据,为后期的案件关联挖掘提供必要的技术基础,本发明提供了一套利用机器学习工具(序列标注、相似计算)和人工校对结合的方式,对案情要素(作案手段、作案工具、涉案物品等)进行自动抽取的方法。
本发明主要包含四个模块:
(1)序列标注模块:根据预先训练好的中文序列标注模型对简要案情文本进行词性标注,识别出里面的名词,动词和动名词。
(2)词义相似模块:利用词义相似算法丰富种子词库。
(3)调优模块:多次人工校准,对要素提取结果进行进一步的调优。
(4)分类词库模块:要素按类别形成类别词库。
本发明对于案件语义要素的自动抽取方法主要包括以下内容:
1)利用预先训练好的序列标注模型对简要案情的进行词性标注,识别出里面的名词,动词和动名词。
2)利用词性标注结果,人工校对提炼出少数种子词库,利用词义相似算法找到更多的类似词来丰富词库,并进行校准。
3)词库都是根据案件类别来建立的,辨识率较高。
4)该方法的用户可以根据不同案例的不同种类对相应的词库进行调整,具有人工交互调整的功能。
5)通过对抽取的要素进行进一步调优,以及对多类简要案情的不停测试,实验结果表明效果不错,证明了此案件语义要素的自动抽取方法的有效性。
该方法最重要的是序列标注和词义相似。首先是利用词性标注识别出文本中的名词,动词和动名词。进而利用词性区分出作案手段(名词和动词)、涉案物品(名词)、作案工具(名词)。其次,通过对案件信息中的所有非结构化文本进行智能分词,然后以词为单位,对所有案件信息的案情语料训练神经网络语言模型,从而得到每个词语对应的词向量。将所有这些向量放在一起形成一个词向量空间,而每一向量则为该空间中的一个点,在这个空间上引入“距离”(如余弦距离),则根据词之间的距离来判断它们之间的(词法、语义上的)相似性。最后,进行迭代调优。
根据词性区分出作案手段、作案工具和涉案物品,进行第一次校准,对于作案手段特殊的动词和名词组合,要将它连接起来。对于词义相似算法找到的近义词需要人工进行第二次校对,剔除一些不可能出现的词;利用校对的词库结合已训练好的序列标注模型,对简要案情进行相关要素的抽取,之后进行第三次调优。对于一些特殊的规律,利用正则表达式进行规避,提高要素自动抽取的准确率。对于“手机店”、“农药门市”等词,利用正则将“物品+店/门市…”这种类型剔除,保证涉案物品的准确率;根据业务需求,需要将一些特定的描述展示为统一方式,可以用正则和映射库进行统一化处理,例如,“现金”、“零钱”、“纸币”需要展示为“现金”,“电动自行车”、“电动车”、“自行车式电动车”需要展示为“电动车”,等等。
下述案例是上述自动化抽取得到的结果示例,简要案情样例为:
2011年10月11日早,在众兴镇同兴居委会新蕾幼儿园东,阳阳(化名)电动车修理门市被人撬门扭锁,盗走一台14寸康佳彩色电视,一台潜水泵,一箱冰红茶,一条软中华(价值700元),九包小苏烟(价值912元),两副大手套,一套修理工具,一块旧电瓶车电池,总共损失价值2762元左右。
基于模型,词库以及正则化处理方法,得到符合业务要求的作案手段、涉案物品、作案工具,如下所示:
该方法在前期需要训练序列标注模型、神经网络词向量模型,在训练完成后可直接用来预测,时间开销很小,所以不会影响此系统的生产应用。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下。由语句“包括一个......限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素”。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (2)
1.一种案件语义要素的自动抽取方法,其特征在于,包括如下步骤:
S1、首先根据要素可能出现的词性,利用预先训练好的序列标注模对简要案情的进行词性标注,识别出里面的名词,动词和动名词;
S2、作案工具和涉案物品从名词中抽取,人工进行分类标注少数简要案情中的作案工具和涉案物品;作案手段从动词和动名词中抽取,并且还需要识别作案手段动词和名词的结合,最终形成种子词库;
S3、根据人工标注的种子词库,利用词义相似算法找到更多相类似的词,以便丰富词库;由于词性标注是基于已有的简要案情进行的,为了之后新增案件语义要素抽取可以获得较高的准确率,利用相似算法获取相似词是十分必要的;
S4、利用校对的词库结合已训练好的序列标注模型对所有案件的简要案情进行相关要素的抽取,对抽取的要素进行进一步调优;
S5、要素按类别形成类别词库,结合序列标注算法和正则化处理方法,对新输入的简要案情文本进行自动抽取,将抽取的语义要素对应案件编号入库。
2.根据权利要求1所述的一种案件语义要素的自动抽取方法,其特征在于:在S3中,种子词库可以采用作案工具,涉案物品、作案手段、侵害对象、选择场所等。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711332273.6A CN107894981A (zh) | 2017-12-13 | 2017-12-13 | 一种案件语义要素的自动抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711332273.6A CN107894981A (zh) | 2017-12-13 | 2017-12-13 | 一种案件语义要素的自动抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107894981A true CN107894981A (zh) | 2018-04-10 |
Family
ID=61807567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711332273.6A Pending CN107894981A (zh) | 2017-12-13 | 2017-12-13 | 一种案件语义要素的自动抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107894981A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582965A (zh) * | 2018-11-30 | 2019-04-05 | 四川长虹电器股份有限公司 | 语义分析引擎的分布式平台构架方法、系统 |
CN109711613A (zh) * | 2018-12-24 | 2019-05-03 | 武汉烽火众智数字技术有限责任公司 | 一种基于人员关系模型和事件关联模型的预警方法及系统 |
CN109800304A (zh) * | 2018-12-29 | 2019-05-24 | 北京奇安信科技有限公司 | 案件笔录的处理方法、装置、设备及介质 |
CN109902172A (zh) * | 2019-01-31 | 2019-06-18 | 深度好奇(北京)科技有限公司 | 案情文本分类方法、装置以及存储介质 |
CN109933783A (zh) * | 2019-01-31 | 2019-06-25 | 华融融通(北京)科技有限公司 | 一种不良资产经营领域的合同要素化方法 |
CN109933649A (zh) * | 2019-03-14 | 2019-06-25 | 武汉烽火普天信息技术有限公司 | 一种基于分类词库和启发式规则的案件手段抽取方法 |
CN110147553A (zh) * | 2019-05-23 | 2019-08-20 | 贵州大学 | 一种基于案件要素的法律文书分析方法 |
CN110210031A (zh) * | 2019-05-31 | 2019-09-06 | 吉林中科结诚科技有限公司 | 一种案情智能识别方法及系统 |
CN110837601A (zh) * | 2019-10-25 | 2020-02-25 | 杭州叙简科技股份有限公司 | 一种警情的自动分类与预测方法 |
CN110909542A (zh) * | 2019-11-15 | 2020-03-24 | 珠海市新德汇信息技术有限公司 | 智能语义串并分析方法及系统 |
WO2020063513A1 (zh) * | 2018-09-30 | 2020-04-02 | 北京国双科技有限公司 | 案情描述要素提取方法、机器学习模型获得方法及装置 |
WO2020119075A1 (zh) * | 2018-12-10 | 2020-06-18 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
CN111428041A (zh) * | 2019-01-09 | 2020-07-17 | 阿里巴巴集团控股有限公司 | 案件摘要生成方法、装置、系统和存储介质 |
CN111460169A (zh) * | 2020-03-27 | 2020-07-28 | 科大讯飞股份有限公司 | 语义表达式生成方法、装置及设备 |
CN112100212A (zh) * | 2020-09-04 | 2020-12-18 | 中国航天科工集团第二研究院 | 一种基于机器学习和规则匹配的案件情节抽取方法 |
CN113239206A (zh) * | 2021-06-18 | 2021-08-10 | 广东博维创远科技有限公司 | 一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101187927A (zh) * | 2007-12-17 | 2008-05-28 | 电子科技大学 | 一种刑事案件的串并案智能分析方法 |
KR20150059013A (ko) * | 2013-11-21 | 2015-05-29 | 한국전자통신연구원 | 범죄 행위 진술서 시각화 방법 및 장치 |
CN106296495A (zh) * | 2016-08-09 | 2017-01-04 | 点击律(上海)网络科技有限公司 | 一种诉讼结果的预测方法及系统 |
CN106503239A (zh) * | 2016-11-07 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 一种法律信息查询的方法和装置 |
-
2017
- 2017-12-13 CN CN201711332273.6A patent/CN107894981A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101187927A (zh) * | 2007-12-17 | 2008-05-28 | 电子科技大学 | 一种刑事案件的串并案智能分析方法 |
KR20150059013A (ko) * | 2013-11-21 | 2015-05-29 | 한국전자통신연구원 | 범죄 행위 진술서 시각화 방법 및 장치 |
CN106296495A (zh) * | 2016-08-09 | 2017-01-04 | 点击律(上海)网络科技有限公司 | 一种诉讼结果的预测方法及系统 |
CN106503239A (zh) * | 2016-11-07 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 一种法律信息查询的方法和装置 |
Non-Patent Citations (1)
Title |
---|
程春惠: "公安犯罪案件文本挖掘关键技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020063513A1 (zh) * | 2018-09-30 | 2020-04-02 | 北京国双科技有限公司 | 案情描述要素提取方法、机器学习模型获得方法及装置 |
CN110969018A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 案情描述要素提取方法、机器学习模型获得方法及装置 |
CN109582965A (zh) * | 2018-11-30 | 2019-04-05 | 四川长虹电器股份有限公司 | 语义分析引擎的分布式平台构架方法、系统 |
CN109582965B (zh) * | 2018-11-30 | 2022-03-01 | 四川长虹电器股份有限公司 | 语义分析引擎的分布式平台构架方法、系统 |
WO2020119075A1 (zh) * | 2018-12-10 | 2020-06-18 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
CN109711613A (zh) * | 2018-12-24 | 2019-05-03 | 武汉烽火众智数字技术有限责任公司 | 一种基于人员关系模型和事件关联模型的预警方法及系统 |
CN109800304A (zh) * | 2018-12-29 | 2019-05-24 | 北京奇安信科技有限公司 | 案件笔录的处理方法、装置、设备及介质 |
CN111428041B (zh) * | 2019-01-09 | 2023-06-16 | 阿里巴巴集团控股有限公司 | 案件摘要生成方法、装置、系统和存储介质 |
CN111428041A (zh) * | 2019-01-09 | 2020-07-17 | 阿里巴巴集团控股有限公司 | 案件摘要生成方法、装置、系统和存储介质 |
CN109902172A (zh) * | 2019-01-31 | 2019-06-18 | 深度好奇(北京)科技有限公司 | 案情文本分类方法、装置以及存储介质 |
CN109933783A (zh) * | 2019-01-31 | 2019-06-25 | 华融融通(北京)科技有限公司 | 一种不良资产经营领域的合同要素化方法 |
CN109902172B (zh) * | 2019-01-31 | 2021-08-27 | 深度好奇(北京)科技有限公司 | 案情文本分类方法、装置以及存储介质 |
CN109933649A (zh) * | 2019-03-14 | 2019-06-25 | 武汉烽火普天信息技术有限公司 | 一种基于分类词库和启发式规则的案件手段抽取方法 |
CN110147553A (zh) * | 2019-05-23 | 2019-08-20 | 贵州大学 | 一种基于案件要素的法律文书分析方法 |
CN110210031A (zh) * | 2019-05-31 | 2019-09-06 | 吉林中科结诚科技有限公司 | 一种案情智能识别方法及系统 |
CN110837601A (zh) * | 2019-10-25 | 2020-02-25 | 杭州叙简科技股份有限公司 | 一种警情的自动分类与预测方法 |
CN110909542A (zh) * | 2019-11-15 | 2020-03-24 | 珠海市新德汇信息技术有限公司 | 智能语义串并分析方法及系统 |
CN110909542B (zh) * | 2019-11-15 | 2023-11-21 | 珠海市新德汇信息技术有限公司 | 智能语义串并分析方法及系统 |
CN111460169A (zh) * | 2020-03-27 | 2020-07-28 | 科大讯飞股份有限公司 | 语义表达式生成方法、装置及设备 |
CN112100212A (zh) * | 2020-09-04 | 2020-12-18 | 中国航天科工集团第二研究院 | 一种基于机器学习和规则匹配的案件情节抽取方法 |
CN113239206A (zh) * | 2021-06-18 | 2021-08-10 | 广东博维创远科技有限公司 | 一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107894981A (zh) | 一种案件语义要素的自动抽取方法 | |
CN105868184B (zh) | 一种基于循环神经网络的中文人名识别方法 | |
CN106874378B (zh) | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 | |
CN107609052B (zh) | 一种基于语义三角的领域知识图谱的生成方法及装置 | |
CN104881401B (zh) | 一种专利文献聚类方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN107122416A (zh) | 一种中文事件抽取方法 | |
CN107220237A (zh) | 一种基于卷积神经网络的企业实体关系抽取的方法 | |
CN103077164A (zh) | 文本分析方法及文本分析器 | |
CN107180023A (zh) | 一种文本分类方法及系统 | |
CN107577662A (zh) | 面向中文文本的语义理解系统及方法 | |
CN106096004A (zh) | 一种建立大规模跨领域文本情感倾向性分析框架的方法 | |
CN106599041A (zh) | 基于大数据平台的文本处理及检索系统 | |
CN109344187B (zh) | 一种司法判决书案情信息结构化处理系统 | |
CN106326212A (zh) | 一种基于层次深度语义的隐式篇章关系分析方法 | |
CN110413783A (zh) | 一种基于注意力机制的司法文本分类方法及系统 | |
CN108763353A (zh) | 基于规则和远程监督的百度百科关系三元组抽取方法 | |
CN101093478A (zh) | 一种根据实体的汉语简称识别汉语全称的方法及系统 | |
CN111523420B (zh) | 基于多任务深度神经网络的表头分类与表头列语义识别方法 | |
CN105930362A (zh) | 搜索目标识别方法、装置及终端 | |
CN111026880B (zh) | 基于联合学习的司法知识图谱构建方法 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN109492230A (zh) | 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法 | |
CN109871449A (zh) | 一种基于语义描述的端到端的零样本学习方法 | |
CN112905739A (zh) | 虚假评论检测模型训练方法、检测方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180410 |