CN112395860A - 一种大规模并行政策数据知识抽取方法及系统 - Google Patents
一种大规模并行政策数据知识抽取方法及系统 Download PDFInfo
- Publication number
- CN112395860A CN112395860A CN202011354524.2A CN202011354524A CN112395860A CN 112395860 A CN112395860 A CN 112395860A CN 202011354524 A CN202011354524 A CN 202011354524A CN 112395860 A CN112395860 A CN 112395860A
- Authority
- CN
- China
- Prior art keywords
- policy
- knowledge
- text
- list
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 13
- 230000007246 mechanism Effects 0.000 claims description 24
- 230000008520 organization Effects 0.000 claims description 17
- 230000004048 modification Effects 0.000 claims description 9
- 238000012986 modification Methods 0.000 claims description 9
- 239000003607 modifier Substances 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种大规模并行政策数据知识抽取方法及系统,本发明通过对政策数据进行正文内容解析,获得政策正文数据列表,分别进行政策发文机构、发布日期知识抽取、政策申报截止日期知识抽取以及政策事件知识抽取,从而实现政策数据的知识抽取。本发明实现依存句法分析模型预加载,达到模型加载一次,多次使用的效果,提高知识抽取的效率,无需使用人工对知识进行抽取,节省人力成本,提高效率,适用于信息量巨大的网络信息获取。
Description
技术领域
本发明涉及知识抽取领域,特别是一种大规模并行政策数据知识抽取方法及系统。
背景技术
随着互联网技术的迅速发展,网络上信息资源的不断增加,人们对信息获取的准确度也有着更高的要求。在信息量巨大的网络中,检索到符合用户预期的结果信息是亟待解决的问题,为了让用户更精准更快速的获取到自己想要的政策信息,这就需要构建政策知识图谱,基于政策知识图谱建立自动问答系统。而构建政策知识图谱,需要先有知识,而现有技术中缺少快速准确的知识获取方法。
发明内容
本发明的目的是提供一种大规模并行政策数据知识抽取方法及系统,旨在解决现有技术中缺少从网络中快速获取政策知识信息的问题,实现提高知识抽取的效率及准确度。
为达到上述技术目的,本发明提供了一种大规模并行政策数据知识抽取方法,所述方法包括以下操作:
采集政策信息数据,对政策信息数据进行正文内容解析,生成政策正文数据列表;
对政策正文数据列表进行倒序遍历,根据当前列表元素与下一列表元素的内容,判断是否为发布日期,进行发布日期知识抽取;
对发布日期后的列表元素,根据列表元素是否含有发文机构关键词作为结尾,进行发文机构知识抽取;
根据截止日期规则对政策正文数据列表进行截止日期知识抽取;
对政策标题通过依存句法分析模型进行分析,根据得到的依存句法分析结果进行政策事件知识抽取。
优选地,所述当前列表元素为日期且下一列表元素含有发文机构关键词作为结尾,则当前列表元素为发布日期。
优选地,所述根据得到的依存句法分析结果进行政策事件知识抽取具体为:
根据得到的依存句法分析结果,获取标题中的谓词及其索引,判断谓词索引的位置,如果谓词索引位置大于等于句子长度的1/4,则对标题句子进行处理,否则不处理;对获取的标题句子进行分析,获取谓词、主语、谓词修饰语以及宾语,并根据分析结果抽取事件:
如果宾语的长度大于4,则事件为宾语;否则如果谓词修饰语与宾语拼接后的长度大于4,则事件为谓词修饰语与宾语拼接后的结果;否则如果主语的长度大于4,则事件为主语;如果均不符合,则将事件赋值为标题句子。
优选地,所述依存句法分析模型为预加载。
本发明还提供了一种大规模并行政策数据知识抽取系统,所述系统包括:
政策信息采集模块,用于采集政策信息数据,对政策信息数据进行正文内容解析,生成政策正文数据列表;
发布日期抽取模块,用于对政策正文数据列表进行倒序遍历,根据当前列表元素与下一列表元素的内容,判断是否为发布日期,进行发布日期知识抽取;
发文机构抽取模块,用于对发布日期后的列表元素,根据列表元素是否含有发文机构关键词作为结尾,进行发文机构知识抽取;
截止日期抽取模块,用于根据截止日期规则对政策正文数据列表进行截止日期知识抽取;
政策事件抽取模块,用于对政策标题通过依存句法分析模型进行分析,根据得到的依存句法分析结果进行政策事件知识抽取。
优选地,所述当前列表元素为日期且下一列表元素含有发文机构关键词作为结尾,则当前列表元素为发布日期。
优选地,所述截止日期规则为含有表示截止日期关键词的日期正则表达式。
优选地,所述依存句法分析模型为预加载。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
与现有技术相比,本发明通过对政策数据进行正文内容解析,获得政策正文数据列表,分别进行政策发文机构、发布日期知识抽取、政策申报截止日期知识抽取以及政策事件知识抽取,从而实现政策数据的知识抽取。本发明实现依存句法分析模型预加载,达到模型加载一次,多次使用的效果,提高知识抽取的效率,无需使用人工对知识进行抽取,节省人力成本,提高效率,适用于信息量巨大的网络信息获取。
附图说明
图1为本发明实施例中所提供的一种大规模并行政策数据知识抽取方法流程图;
图2为本发明实施例中所提供的一种大规模并行政策数据知识抽取系统框图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种大规模并行政策数据知识抽取方法及系统进行详细说明。
如图1所示,本发明公开了一种大规模并行政策数据知识抽取方法,所述方法包括以下操作:
采集政策信息数据,对政策信息数据进行正文内容解析,生成政策正文数据列表;
对政策正文数据列表进行倒序遍历,根据当前列表元素与下一列表元素的内容,判断是否为发布日期,进行发布日期知识抽取;
对发布日期后的列表元素,根据列表元素是否含有发文机构关键词作为结尾,进行发文机构知识抽取;
根据截止日期规则对政策正文数据列表进行截止日期知识抽取;
对政策标题通过依存句法分析模型进行分析,根据得到的依存句法分析结果,进行政策事件知识抽取。
为了建立基于政策知识图谱的自动问答系统,让用户快速准确的获取自己想要的政策信息,需要对政策数据进行知识的抽取。
采集政策信息数据,并对采集到的政策信息数据进行正文内容解析,获取有段落结构的政策正文数据列表。
对政策正文数据列表进行政策发文机构、发布日期知识抽取。
抽取发文机构所在行数据信息、发布日期信息。由政策信息数据的内容特点可知,发文机构、发布日期通常在内容页的底端且发文机构在发布日期的上方,因此对正文列表进行倒序,遍历正文列表数据,如果列表元素为日期,或者列表中含有一个日期项且该元素的下一个元素符合发文机构的规则,则该日期为发布日期。遍历发布日期之后的4个元素,如果元素符合发文机构的规则,则认为该元素为发文机构。判断发文机构的规则如下:以厅、局、处、委员会、办公室、办、公司、中心、部、政府、电视台、工会、委、银行、支行、院、小组、司、科、协会、科协、联合会关键词结尾且全部为中文和空格。由于获取到的发文机构信息可能是多个发文机构,如“山西省教育厅山西省财政厅”,因此需要对整行发文机构进行拆分,得到每一个单独的发文机构。
根据政策正文数据列表对政策申报截止日期进行知识抽取。
将政策正文数据列表拼接成字符串,根据截止日期规则对正文中的截止日期进行抽取,截止日期规则如:于\s*?(\d{4}\s*?年\s*?\d{1,2}\s*?月\s*?\d{1,2}\s*?日)\s*?.{0,9}之前等。
根据政策标题对政策事件进行抽取。
对政策标题进行依存句法分析,得出标题句子的依存句法结构。为了提高知识抽取的效率,对依存句法分析模型进行预加载,避免每次调用该模型都加载一次,实现模型的一次加载,多次使用。根据得到的依存句法分析结果,获取标题中的谓词及其索引,判断谓词索引的位置,如果谓词索引位置大于等于句子长度的1/4,则对标题句子进行处理,否则不对句子处理。根据标题句子的依存句法分析结果对标题句子进行分析,获取谓词、主语、谓词修饰语以及宾语,并根据分析结果抽取事件:如果宾语的长度大于4,则事件为宾语;否则如果谓词修饰语与宾语拼接后的长度大于4,则事件为谓词修饰语与宾语拼接后的结果;否则如果主语的长度大于4,则事件为主语。如果以上均不符合,则将事件赋值为标题句子。
本发明实施例通过对政策数据进行正文内容解析,获得政策正文数据列表,分别进行政策发文机构、发布日期知识抽取、政策申报截止日期知识抽取以及政策事件知识抽取,从而实现政策数据的知识抽取。本发明实现依存句法分析模型预加载,达到模型加载一次,多次使用的效果,提高知识抽取的效率,无需使用人工对知识进行抽取,节省人力成本,提高效率,适用于信息量巨大的网络信息获取。
如图2所示,本发明实施例还公开了一种大规模并行政策数据知识抽取系统,所述系统包括:
政策信息采集模块,用于采集政策信息数据,对政策信息数据进行正文内容解析,生成政策正文数据列表;
发布日期抽取模块,用于对政策正文数据列表进行倒序遍历,根据当前列表元素与下一列表元素的内容,判断是否为发布日期,进行发布日期知识抽取;
发文机构抽取模块,用于对发布日期后的列表元素,根据列表元素是否含有发文机构关键词作为结尾,进行发文机构知识抽取;
截止日期抽取模块,用于根据截止日期规则对政策正文数据列表进行截止日期知识抽取;
政策事件抽取模块,用于对政策标题通过依存句法分析模型进行分析,根据得到的依存句法分析结果进行政策事件知识抽取。
采集政策信息数据,并对采集到的政策信息数据进行正文内容解析,获取有段落结构的政策正文数据列表。
对政策正文数据列表进行政策发文机构、发布日期知识抽取。
抽取发文机构所在行数据信息、发布日期信息。由政策信息数据的内容特点可知,发文机构、发布日期通常在内容页的底端且发文机构在发布日期的上方,因此对正文列表进行倒序,遍历正文列表数据,如果列表元素为日期,或者列表中含有一个日期项且该元素的下一个元素符合发文机构的规则,则该日期为发布日期。遍历发布日期之后的4个元素,如果元素符合发文机构的规则,则认为该元素为发文机构。判断发文机构的规则如下:以厅、局、处、委员会、办公室、办、公司、中心、部、政府、电视台、工会、委、银行、支行、院、小组、司、科、协会、科协、联合会关键词结尾且全部为中文和空格。由于获取到的发文机构信息可能是多个发文机构,如“山西省教育厅山西省财政厅”,因此需要对整行发文机构进行拆分,得到每一个单独的发文机构。
根据政策正文数据列表对政策申报截止日期进行知识抽取。
将政策正文数据列表拼接成字符串,根据截止日期规则对正文中的截止日期进行抽取,截止日期规则如:于\s*?(\d{4}\s*?年\s*?\d{1,2}\s*?月\s*?\d{1,2}\s*?日)\s*?.{0,9}之前等。
根据政策标题对政策事件进行抽取。
对政策标题进行依存句法分析,得出标题句子的依存句法结构。为了提高知识抽取的效率,对依存句法分析模型进行预加载,避免每次调用该模型都加载一次,实现模型的一次加载,多次使用。根据得到的依存句法分析结果,获取标题中的谓词及其索引,判断谓词索引的位置,如果谓词索引位置大于等于句子长度的1/4,则对标题句子进行处理,否则不对句子处理。根据标题句子的依存句法分析结果对标题句子进行分析,获取谓词、主语、谓词修饰语以及宾语,并根据分析结果抽取事件:如果宾语的长度大于4,则事件为宾语;否则如果谓词修饰语与宾语拼接后的长度大于4,则事件为谓词修饰语与宾语拼接后的结果;否则如果主语的长度大于4,则事件为主语。如果以上均不符合,则将事件赋值为标题句子。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种大规模并行政策数据知识抽取方法,其特征在于,所述方法包括以下操作:
采集政策信息数据,对政策信息数据进行正文内容解析,生成政策正文数据列表;
对政策正文数据列表进行倒序遍历,根据当前列表元素与下一列表元素的内容,判断是否为发布日期,进行发布日期知识抽取;
对发布日期后的列表元素,根据列表元素是否含有发文机构关键词作为结尾,进行发文机构知识抽取;
根据截止日期规则对政策正文数据列表进行截止日期知识抽取;
对政策标题通过依存句法分析模型进行分析,根据得到的依存句法分析结果进行政策事件知识抽取。
2.根据权利要求1所述的一种大规模并行政策数据知识抽取方法,其特征在于,所述当前列表元素为日期且下一列表元素含有发文机构关键词作为结尾,则当前列表元素为发布日期。
3.根据权利要求1所述的一种大规模并行政策数据知识抽取方法,其特征在于,所述根据得到的依存句法分析结果进行政策事件知识抽取具体为:
根据得到的依存句法分析结果,获取标题中的谓词及其索引,判断谓词索引的位置,如果谓词索引位置大于等于句子长度的1/4,则对标题句子进行处理,否则不处理;对获取的标题句子进行分析,获取谓词、主语、谓词修饰语以及宾语,并根据分析结果抽取事件:
如果宾语的长度大于4,则事件为宾语;否则如果谓词修饰语与宾语拼接后的长度大于4,则事件为谓词修饰语与宾语拼接后的结果;否则如果主语的长度大于4,则事件为主语;如果均不符合,则将事件赋值为标题句子。
4.根据权利要求1所述的一种大规模并行政策数据知识抽取方法,其特征在于,所述依存句法分析模型为预加载。
5.一种大规模并行政策数据知识抽取系统,其特征在于,所述系统包括:
政策信息采集模块,用于采集政策信息数据,对政策信息数据进行正文内容解析,生成政策正文数据列表;
发布日期抽取模块,用于对政策正文数据列表进行倒序遍历,根据当前列表元素与下一列表元素的内容,判断是否为发布日期,进行发布日期知识抽取;
发文机构抽取模块,用于对发布日期后的列表元素,根据列表元素是否含有发文机构关键词作为结尾,进行发文机构知识抽取;
截止日期抽取模块,用于根据截止日期规则对政策正文数据列表进行截止日期知识抽取;
政策事件抽取模块,用于对政策标题通过依存句法分析模型进行分析,根据得到的依存句法分析结果进行政策事件知识抽取。
6.根据权利要求5所述的一种大规模并行政策数据知识抽取系统,其特征在于,所述当前列表元素为日期且下一列表元素含有发文机构关键词作为结尾,则当前列表元素为发布日期。
7.根据权利要求5所述的一种大规模并行政策数据知识抽取系统,其特征在于,所述截止日期规则为含有表示截止日期关键词的日期正则表达式。
8.根据权利要求5所述的一种大规模并行政策数据知识抽取系统,其特征在于,所述依存句法分析模型为预加载。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011354524.2A CN112395860A (zh) | 2020-11-27 | 2020-11-27 | 一种大规模并行政策数据知识抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011354524.2A CN112395860A (zh) | 2020-11-27 | 2020-11-27 | 一种大规模并行政策数据知识抽取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112395860A true CN112395860A (zh) | 2021-02-23 |
Family
ID=74604603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011354524.2A Pending CN112395860A (zh) | 2020-11-27 | 2020-11-27 | 一种大规模并行政策数据知识抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395860A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392354A (zh) * | 2021-06-28 | 2021-09-14 | 山东亿云信息技术有限公司 | 一种网页正文解析方法、系统、介质及电子设备 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937430A (zh) * | 2010-09-03 | 2011-01-05 | 清华大学 | 一种汉语句子中事件句式的抽取方法 |
CN108460150A (zh) * | 2018-03-23 | 2018-08-28 | 北京奇虎科技有限公司 | 新闻标题的处理方法及装置 |
CN108536673A (zh) * | 2018-03-16 | 2018-09-14 | 数库(上海)科技有限公司 | 新闻事件抽取方法及装置 |
CN109493265A (zh) * | 2018-11-05 | 2019-03-19 | 北京奥法科技有限公司 | 一种基于深度学习的政策解读方法及政策解读系统 |
CN109871955A (zh) * | 2019-01-22 | 2019-06-11 | 中国民航大学 | 一种航空安全事故因果关系抽取方法 |
CN110599289A (zh) * | 2019-07-31 | 2019-12-20 | 长春市万易科技有限公司 | 一种裁判文书格式化处理方法 |
CN110866116A (zh) * | 2019-10-25 | 2020-03-06 | 远光软件股份有限公司 | 政策文档的处理方法、装置、存储介质及电子设备 |
CN110895586A (zh) * | 2018-08-22 | 2020-03-20 | 腾讯科技(深圳)有限公司 | 生成新闻页面的方法、装置、计算机设备及存储介质 |
CN110929509A (zh) * | 2019-10-16 | 2020-03-27 | 上海大学 | 一种基于louvain社区发现算法的领域事件触发词聚类方法 |
CN110968757A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 政策文件处理方法及装置 |
CN111177315A (zh) * | 2019-12-19 | 2020-05-19 | 北京明略软件系统有限公司 | 知识图谱的更新方法、装置及计算机可读存储介质 |
CN111460787A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
CN111723564A (zh) * | 2020-05-27 | 2020-09-29 | 西安交通大学 | 一种针对随案电子卷宗的事件抽取及处理方法 |
-
2020
- 2020-11-27 CN CN202011354524.2A patent/CN112395860A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937430A (zh) * | 2010-09-03 | 2011-01-05 | 清华大学 | 一种汉语句子中事件句式的抽取方法 |
CN108536673A (zh) * | 2018-03-16 | 2018-09-14 | 数库(上海)科技有限公司 | 新闻事件抽取方法及装置 |
CN108460150A (zh) * | 2018-03-23 | 2018-08-28 | 北京奇虎科技有限公司 | 新闻标题的处理方法及装置 |
CN110895586A (zh) * | 2018-08-22 | 2020-03-20 | 腾讯科技(深圳)有限公司 | 生成新闻页面的方法、装置、计算机设备及存储介质 |
CN110968757A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 政策文件处理方法及装置 |
CN109493265A (zh) * | 2018-11-05 | 2019-03-19 | 北京奥法科技有限公司 | 一种基于深度学习的政策解读方法及政策解读系统 |
CN109871955A (zh) * | 2019-01-22 | 2019-06-11 | 中国民航大学 | 一种航空安全事故因果关系抽取方法 |
CN110599289A (zh) * | 2019-07-31 | 2019-12-20 | 长春市万易科技有限公司 | 一种裁判文书格式化处理方法 |
CN110929509A (zh) * | 2019-10-16 | 2020-03-27 | 上海大学 | 一种基于louvain社区发现算法的领域事件触发词聚类方法 |
CN110866116A (zh) * | 2019-10-25 | 2020-03-06 | 远光软件股份有限公司 | 政策文档的处理方法、装置、存储介质及电子设备 |
CN111177315A (zh) * | 2019-12-19 | 2020-05-19 | 北京明略软件系统有限公司 | 知识图谱的更新方法、装置及计算机可读存储介质 |
CN111460787A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
CN111723564A (zh) * | 2020-05-27 | 2020-09-29 | 西安交通大学 | 一种针对随案电子卷宗的事件抽取及处理方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392354A (zh) * | 2021-06-28 | 2021-09-14 | 山东亿云信息技术有限公司 | 一种网页正文解析方法、系统、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Faaß et al. | Sdewac–a corpus of parsable sentences from the web | |
US10423649B2 (en) | Natural question generation from query data using natural language processing system | |
US9965540B1 (en) | System and method for facilitating associating semantic labels with content | |
US20200058291A1 (en) | Method and apparatus for identifying key phrase in audio, device and medium | |
Ferschke et al. | FlawFinder: A Modular System for Predicting Quality Flaws in Wikipedia. | |
US10592236B2 (en) | Documentation for version history | |
Vadapalli et al. | Twitterosint: automated cybersecurity threat intelligence collection and analysis using twitter data | |
Ormandi et al. | Webred: Effective pretraining and finetuning for relation extraction on the web | |
Wijeratne et al. | Sinhala language corpora and stopwords from a decade of sri lankan facebook | |
CN112395860A (zh) | 一种大规模并行政策数据知识抽取方法及系统 | |
Ginev et al. | Scientific statement classification over arXiv. org | |
Al-Shawakfa | A rule-based approach to understand questions in Arabic question answering | |
Morwal et al. | NERHMM: A tool for named entity recognition based on hidden Markov model | |
Branco et al. | A PropBank for Portuguese: the CINTIL-PropBank. | |
CN115617965A (zh) | 一种语言结构大数据的快速检索方法 | |
CN111949781B (zh) | 一种基于自然语句句法分析的智能交互方法及装置 | |
Mansouri et al. | Parstime: Rule-based extraction and normalization of persian temporal expressions | |
WO2010103916A1 (ja) | 文書の特徴語提示装置及び特徴語の優先度付与プログラム | |
CN110688453A (zh) | 基于资讯分类的场景应用方法、系统、介质及设备 | |
CN111104369A (zh) | 一种检索数据库构建方法及装置 | |
Samah et al. | TF-IDF and Data Visualization For Syafie Madhhab Hadith Scriptures Authenticity | |
Gleim et al. | WikiDragon: A Java framework for diachronic content and network analysis of mediawikis | |
Rajalingam | A rule based iterative affix stripping stemming algorithm for Tamil | |
CN108932326B (zh) | 一种实例扩展方法、装置、设备和介质 | |
Ramrakhiyani et al. | Temporal expression recognition in hindi |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210223 |