CN103617290B - 中文机器阅读系统 - Google Patents
中文机器阅读系统 Download PDFInfo
- Publication number
- CN103617290B CN103617290B CN201310685182.6A CN201310685182A CN103617290B CN 103617290 B CN103617290 B CN 103617290B CN 201310685182 A CN201310685182 A CN 201310685182A CN 103617290 B CN103617290 B CN 103617290B
- Authority
- CN
- China
- Prior art keywords
- data
- module
- relation
- entity
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种中文机器阅读系统,包括数据抓取模块、数据处理模块、数据抽取模块、知识库、数据整合模块和使用接口;数据抽取模块包括wiki内容抽取模块、模板抽取模块、实体抽取模块、关系抽取模块和模板匹配模块。与现有技术相比,本发明使用开放式抽取方法,不限定抽取领域,能够读取互联网上广泛存在的非结构化文本信息,适于推广应用,并能够自适应中文语言的进化。
Description
技术领域
本发明涉及中文阅读技术领域,特别涉及一种中文阅读系统。
背景技术
随着大数据时代的到来,越来越多的数据以文本的形式被发布到网上。如何对网络数据进行理解成为了更加紧迫和急需解决的问题。其中一个方式就是把非结构化的文本数据组织成机器能够识别并使用的结构化数据(如词与词之间的关系),为未来进行一系列的推理、识别打下基础。结构化的数据可以用于做语义消歧,根据词之间的关系可以推断词的含义。另外现有技术对文本共现频率的统计,仅限于使用窗口进行滑动,进而统计两个词共同出现的频率;或者使用语言模型统计连续出现的词的频率。而随着计算能力的提高,共现可以进行归类,语言模型也可以不局限于连续出现的词的统计。
在文本处理领域,英文的机器阅读已经得到了相当大的发展。例如Never EndingLanguage Learning(NELL)系统,通过英文文本的概念和实体之间的关系,对互联网数据进行特征提取和学习,从而得到更多的概念和实体。又比如Textrunner(Reverb)系统,通过使用一系列正则表达式和简单的机器学习方法,来实现开放式的语言抽取。
目前已有一些中文的知识库(如zhishi.me),通过对中文百科数据进行实体和关系的抽取所构建的,对百科数据的抽取可以通过标题、超链接的文本等信息进行提取,然后通过链接和Infobox中的属性关系来构建关系链接。但是,语言本身是多样的,关键词并不应局限于实体(如人名、地名等),关系也不应局限在百科中已有的关系(如属性),还应该包含更多种(同一种关系,可以有不同的说法;同一个关系,可以有不同的关系对象)情况。
发明内容
本发明克服了现有技术的不足,提供一种能够在中文文本中进行阅读的中文机器阅读系统。
为解决上述技术问题,本发明采用的技术方案为:
中文机器阅读系统,包括数据抓取模块、数据处理模块、数据抽取模块、知识库、数据整合模块和使用接口,数据抓取模块、数据处理模块、数据抽取模块和知识库依次连接,数据整合模块和使用接口与知识库连接。
数据抓取模块用于抓取互联网上文本的非结构化数据。数据抓取模块使用URL种子,通过graph propagation的方式传播抓取网页,对于抓取下来的网页,分析HTML的结构化数据,抽取非结构化的文本信息,使用Hadoop框架,利用URL数据进行抓取非结构化文本信息,使用Lucene和Neo4J两种存储框架,Lucene对非结构化网页进行处理和检索,Neo4J存储URL的图结构。
数据处理模块把数据进行标准化处理,具体包括以下步骤:1)中文分词:使用分词器对中文进行分词处理,经过分词的文章和句子存储到Lucene数据库;2)词性标注:对于中文分词的结果进行词性标注,并将词性标注的结构存储到Lucene数据库;3)标准化处理:特征抽取中文单词,特征为根据中文单词曾经出现的频率加权,并进行全局上的归一化。
知识库用于存储的知识集群。
使用接口提供调用数据的接口。
数据抽取模块通过机器学习和模板匹配的方法,得到计算机能够处理的知识。数据抽取模块包括wiki内容抽取模块、模板抽取模块、实体抽取模块、关系抽取模块和模板匹配模块。数据抽取模块中数据的流向具体包括:数据通过wiki内容抽取模块提取为实体列表和三元组,实体列表和三元组通过实体抽取模块、关系抽取模块抽取为实体和关系后,在模板抽取模块初始化模板,并通过模板匹配模板匹配模板,经过匹配后的关系,流向关系抽取模块,判断是否被列为知识库中的内容。
wiki内容抽取模块提取wiki的内容进行抽取;先提取wiki的标题、超链接中的实体,然后对infobox中的属性关系进行提取,得到实体列表和由实体、关系、键值组成的三元组两种形式的知识。
模板抽取模块根据wiki中得到的内容初始化模板,对三元组信息归纳总结,使用频率最高的限定数量的关系作为初始化模板。
实体抽取模块、关系抽取模块对已有的实体和关系进行学习;首先,使用词典和匹配技术,找到相应的实体和关系,其中关系可以是实体的属性也可以是某种联系;其次,使用序列标签技术,例如,条件随机场CRF、最大熵方法,对已有的实体和关系所在的例句进行训练,标注新的数据。
模板匹配模块根据模板抽取模块获得的模板,使用正则表达式进行匹配,得到备选的新知识,使用特征提取的方法把相应的关系表示成机器可以扩展识别的特征,对特征使用支持向量机方法和朴素贝叶斯方法等机器学习的方法,判断一条知识是否被列为知识库中的内容。
数据整合模块用于修复和改进知识库中的内容,包括数据去重模块和数据消歧模块。
数据去重模块判断数据与已有知识库中的知识是否为同一个实体。数据去重模块的去重方法具体步骤包括:第一,对已有的知识库,将数据表示成图的结构,把每个实体都表示成图上的一个节点,把每个关系表示成图上的一个边,边上的权重为该关系被识别的次数;第二,对图进行聚类,聚类的判别函数是根据节点的相似度来判断的,将权重较小或者噪音边切割掉,形成若干个不相连的子图;第三,对子图的节点进行判断,如果对于同一类中的节点,相似度大于某个阈值,则判断为同一个实体。
数据消歧模块主要通过互斥信息判断消歧。数据消歧模块的消歧方法具体步骤包括:第一,在数据库中,使用关系和实体找到能够产生互斥关系的类别,第二,用互斥的类别对数据进行清洗;第三,人工干预和使用机器学习的方法对少量不适于批处理的实体提取特征进行预测。
与现有技术相比,本发明的有益效果有:
首先,本发明技术方案数据抓取模块能够抓取互联网上广泛存在的非结构化文本信息,经过其他模块的分析和整合,识别为机器能够识别的实体和关系,使用了开放式的抽取方法,不限定抽取领域,对全互联网信息进行抽取,使用广泛,实用性强,广度大。
进一步地,数据抽取模块抽取数据的实体和关系,匹配模板后,并判断一条知识是否被列为知识库中的内容,在本发明中文阅读的过程中,知识库也在不断的更新完善,能够依据中文的发展,适应性的对中文进行阅读,满足了语言的进化演变的需求。
进一步地,本发明提供使用接口,为其他应用提供使用基础。
附图说明
图1为本发明的结构示意图。
图2为本发明数据抽取模块中数据的流向示意图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
中文机器阅读系统,包括数据抓取模块1、数据处理模块2、数据抽取模块3、知识库4、数据整合模块5和使用接口6,数据抓取模块1、数据处理模块2、数据抽取模块3和知识库4依次连接,数据整合模块5和使用接口6与知识库4连接。
数据抓取模块1用于抓取互联网上文本的非结构化数据。数据抓取模块1使用URL种子,通过graph propagation的方式传播抓取网页,对于抓取下来的网页,分析HTML的结构化数据,抽取非结构化的文本信息,使用Hadoop框架,利用URL数据进行抓取非结构化文本信息,使用Lucene和Neo4J两种存储框架,Lucene对非结构化网页进行处理和检索,Neo4J存储URL的图结构。
数据处理模块2把数据进行标准化处理,具体包括以下步骤:1)中文分词:使用分词器对中文进行分词处理,经过分词的文章和句子存储到Lucene数据库;2)词性标注:对于中文分词的结果进行词性标注,并将词性标注的结构存储到Lucene数据库;3)标准化处理:特征抽取中文单词,特征为根据中文单词曾经出现的频率加权,并进行全局上的归一化。
知识库4用于存储的知识集群。
使用接口6提供调用数据的接口。
数据抽取模块3通过机器学习和模板匹配的方法,得到计算机能够处理的知识。数据抽取模块3包括wiki内容抽取模块301、模板抽取模块304、实体抽取模块302、关系抽取模块303和模板匹配模块305。数据抽取模块3中数据的流向具体包括:数据通过wiki内容抽取模块301提取为实体列表和三元组,实体列表和三元组通过实体抽取模块302、关系抽取模块303抽取为实体和关系后,在模板抽取模块304初始化模板,并通过模板匹配模块305匹配模板,经过匹配后的关系,流向关系抽取模块303,判断是否被列为知识库4中的内容。
wiki内容抽取模块301提取wiki的内容进行抽取;先提取wiki的标题、超链接中的实体,然后对infobox中的属性关系进行提取,得到实体列表和由实体、关系、键值组成的三元组两种形式的知识。
模板抽取模块304根据wiki中得到的内容初始化模板,对三元组信息归纳总结,使用频率最高的限定数量的关系作为初始化模板。
实体抽取模块302、关系抽取模块303对已有的实体和关系进行学习;首先,使用词典和匹配技术,找到相应的实体和关系,其中关系可以是实体的属性也可以是某种联系;其次,使用序列标签技术,例如,条件随机场CRF、最大熵方法,对已有的实体和关系所在的例句进行训练,标注新的数据。
模板匹配模块305根据模板抽取模块获得的模板,使用正则表达式进行匹配,得到备选的新知识,使用特征提取的方法把相应的关系表示成机器可以扩展识别的特征,对特征使用支持向量机方法和朴素贝叶斯方法等机器学习的方法,判断一条知识是否被列为知识库中的内容。
数据整合模块5用于修复和改进知识库中的内容,包括数据去重模块和数据消歧模块。
数据去重模块判断数据与已有知识库中的知识是否为同一个实体。数据去重模块的去重方法具体步骤包括:第一,对已有的知识库,将数据表示成图的结构,把每个实体都表示成图上的一个节点,把每个关系表示成图上的一个边,边上的权重为该关系被识别的次数;第二,对图进行聚类,聚类的判别函数是根据节点的相似度来判断的,将权重较小或者噪音边切割掉,形成若干个不相连的子图;第三,对子图的节点进行判断,如果对于同一类中的节点,相似度大于某个阈值,则判断为同一个实体。
数据消歧模块主要通过互斥信息判断消歧。数据消歧模块的消歧方法具体步骤包括:第一,在数据库中,使用关系和实体找到能够产生互斥关系的类别,第二,用互斥的类别对数据进行清洗;第三,人工干预和使用机器学习的方法对少量不适于批处理的实体提取特征进行预测。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.中文机器阅读系统,其特征在于:包括
数据抓取模块:抓取互联网上文本的非结构化数据;
数据处理模块:把数据进行标准化处理;
数据抽取模块:通过机器学习和模板匹配的方法,得到计算机能够处理的知识;
知识库:存储的知识集群;
数据整合模块:修复和改进知识库中的内容;
使用接口:提供调用数据的接口;
所述数据抓取模块、数据处理模块、数据抽取模块和知识库依次连接,所述数据整合模块和使用接口与所述知识库连接;
所述数据抽取模块包括:
wiki内容抽取模块:提取wiki的内容进行抽取;
模板抽取模块:根据wiki中得到的内容初始化模板;
实体抽取模块、关系抽取模块:对已有的实体和关系进行学习;
模板匹配模块:根据获得的模板,使用正则表达式进行匹配,得到备选的新知识;
所述数据抽取模块中数据的流向具体包括:数据通过wiki内容抽取模块提取为实体列表和三元组,所述实体列表和三元组通过实体抽取模块、关系抽取模块抽取为实体和关系后,在模板抽取模块初始化模板,并通过模板匹配模块匹配模板,经过匹配后的关系,流向关系抽取模块,判断是否被列为知识库中的内容。
2.根据权利要求1所述的中文机器阅读系统,其特征在于:所述数据抓取模块的抓取方法包括以下步骤:
1)使用URL种子,通过graph propagation的方式传播抓取网页;
2)对于抓取下来的网页,分析HTML的结构化数据,抽取非结构化的文本信息;
3)使用Hadoop框架,利用URL数据进行抓取非结构化文本信息;
4)使用Lucene和Neo4J两种存储框架,Lucene对非结构化网页进行处理和检索,Neo4J存储URL的图结构。
3.根据权利要求1所述的中文机器阅读系统,其特征在于:所述数据处理模块把数据进行标准化处理,包括以下步骤:
1)中文分词:使用分词器对中文进行分词处理,经过分词的文章和句子存储到Lucene数据库;
2)词性标注:对于中文分词的结果进行词性标注,并将词性标注的结构存储到Lucene数据库;
3)标准化处理:特征抽取中文单词,所述特征为根据中文单词曾经出现的频率加权,并进行全局上的归一化。
4.根据权利要求1所述的中文机器阅读系统,其特征在于:
所述wiki内容抽取模块的wiki抽取方法具体包括:先提取wiki的标题、超链接中的实体,然后对infobox中的属性关系进行提取,得到实体列表和由实体、关系、键值组成的三元组两种形式的知识;
所述模板抽取模块的模板抽取方法具体包括:所述三元组信息归纳总结,使用频率最高的限定数量的关系作为初始化模板;
所述实体抽取模块、关系抽取模块抽取实体、关系的方法具体步骤包括:1)使用词典和匹配技术,找到相应的实体和关系;2)使用序列标签技术,对已有的实体和关系所在的例句进行训练,标注新的数据;
所述模板匹配模块的匹配模板的方法具体包括:使用特征提取的方法把相应的关系表示成机器可以扩展识别的特征,对所述特征使用机器学习的方法,判断一条知识是否被列为知识库中的内容。
5.根据权利要求4所述的中文机器阅读系统,其特征在于:
所述实体抽取模块、关系抽取模块的序列标签技术包括条件随机场CRF和最大熵方法;
所述模板匹配模块中的机器学习的方法包括支持向量机方法和朴素贝叶斯方法。
6.根据权利要求4所述的中文机器阅读系统,其特征在于:所述关系为实体的属性或者实体的相关联系。
7.根据权利要求1所述的中文机器阅读系统,其特征在于:所述数据整合模块包括:
数据去重模块:判断所述数据与已有知识库中的知识是否为同一个实体;
数据消歧模块:主要通过互斥信息判断消歧。
8.根据权利要求7所述的中文机器阅读系统,其特征在于:
所述数据去重模块的去重方法具体步骤包括:1)对已有的知识库,将数据表示成图的结构,把每个实体都表示成图上的一个节点,把每个关系表示成图上的一个边,边上的权重为该关系被识别的次数;2)对图进行聚类,聚类的判别函数是根据节点的相似度来判断的,将权重较小或者噪音边切割掉,形成若干个不相连的子图;3)对子图的节点进行判断,如果对于同一类中的节点,相似度大于某个阈值,则判断为同一个实体。
9.根据权利要求7所述的中文机器阅读系统,其特征在于:
所述数据消歧模块的消歧方法具体步骤包括:1)在数据库中,使用关系和实体找到能够产生互斥关系的类别,2)用互斥的类别对数据进行清洗;3)人工干预和使用机器学习的方法对少量不适于批处理的实体提取特征进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310685182.6A CN103617290B (zh) | 2013-12-13 | 2013-12-13 | 中文机器阅读系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310685182.6A CN103617290B (zh) | 2013-12-13 | 2013-12-13 | 中文机器阅读系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103617290A CN103617290A (zh) | 2014-03-05 |
CN103617290B true CN103617290B (zh) | 2017-02-15 |
Family
ID=50167993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310685182.6A Active CN103617290B (zh) | 2013-12-13 | 2013-12-13 | 中文机器阅读系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103617290B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978336A (zh) * | 2014-04-08 | 2015-10-14 | 云南电力试验研究院(集团)有限公司电力研究院 | 基于Hadoop分布式计算平台的非结构化数据存储系统 |
CN106055618B (zh) * | 2016-05-26 | 2020-02-07 | 优品财富管理有限公司 | 一种基于网络爬虫与结构化存储的数据处理方法 |
CN106296312A (zh) * | 2016-08-30 | 2017-01-04 | 江苏名通信息科技有限公司 | 基于社交媒体的在线教育资源推荐系统 |
CN106294186A (zh) * | 2016-08-30 | 2017-01-04 | 深圳市悲画软件自动化技术有限公司 | 智能软件自动化测试方法 |
CN106776866A (zh) * | 2016-11-29 | 2017-05-31 | 首都师范大学 | 一种对高校网站上的会议稿进行知识抽取的方法 |
CN110019829B (zh) * | 2017-09-19 | 2021-05-07 | 绿湾网络科技有限公司 | 数据属性确定方法、装置 |
CN109697225A (zh) * | 2017-10-23 | 2019-04-30 | 贵州双龙数联科技有限公司 | 基于神经网络半监督学习的互联网大数据文本精准挖掘引擎 |
CN108154198B (zh) * | 2018-01-25 | 2021-07-13 | 北京百度网讯科技有限公司 | 知识库实体归一方法、系统、终端和计算机可读存储介质 |
CN109446298A (zh) * | 2018-08-22 | 2019-03-08 | 优视科技(中国)有限公司 | 模板匹配方法及装置、计算机设备及可读介质 |
CN110442868A (zh) * | 2019-08-01 | 2019-11-12 | 第四范式(北京)技术有限公司 | 文本处理方法、装置及电子设备 |
CN113407716B (zh) * | 2021-05-14 | 2022-08-19 | 桂林电子科技大学 | 一种基于众包的人类行为文本数据集的构造以及处理方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101369275A (zh) * | 2008-09-10 | 2009-02-18 | 浙江大学 | 一种非结构化文本中的产品属性挖掘方法 |
CN101710343A (zh) * | 2009-12-11 | 2010-05-19 | 北京中机科海科技发展有限公司 | 一种基于文本挖掘的本体自动构建系统及方法 |
CN102207946A (zh) * | 2010-06-29 | 2011-10-05 | 天津海量信息技术有限公司 | 一种知识网络的半自动生成方法 |
CN102214208A (zh) * | 2011-04-27 | 2011-10-12 | 百度在线网络技术(北京)有限公司 | 一种基于非结构化文本生成结构化信息实体的方法与设备 |
CN102622453A (zh) * | 2012-04-20 | 2012-08-01 | 北京邮电大学 | 基于本体的食品安全事件语义检索系统 |
CN102662923A (zh) * | 2012-04-23 | 2012-09-12 | 天津大学 | 一种基于机器学习的本体实例学习方法 |
-
2013
- 2013-12-13 CN CN201310685182.6A patent/CN103617290B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101369275A (zh) * | 2008-09-10 | 2009-02-18 | 浙江大学 | 一种非结构化文本中的产品属性挖掘方法 |
CN101710343A (zh) * | 2009-12-11 | 2010-05-19 | 北京中机科海科技发展有限公司 | 一种基于文本挖掘的本体自动构建系统及方法 |
CN102207946A (zh) * | 2010-06-29 | 2011-10-05 | 天津海量信息技术有限公司 | 一种知识网络的半自动生成方法 |
CN102214208A (zh) * | 2011-04-27 | 2011-10-12 | 百度在线网络技术(北京)有限公司 | 一种基于非结构化文本生成结构化信息实体的方法与设备 |
CN102622453A (zh) * | 2012-04-20 | 2012-08-01 | 北京邮电大学 | 基于本体的食品安全事件语义检索系统 |
CN102662923A (zh) * | 2012-04-23 | 2012-09-12 | 天津大学 | 一种基于机器学习的本体实例学习方法 |
Non-Patent Citations (4)
Title |
---|
开放式文本信息抽取;赵军 等;《中文信息学报》;20111115;第25卷(第06期);98-110 * |
自动抽取维基百科文本中的语义关系;王刚;《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》;20080615;第2008年卷(第06期);I138-539 * |
面向网页文本的地理要素变化检测;王曙 等;《地球信息科学学报》;20131015;第15卷(第05期);625-634 * |
面向非结构化文本的开放式实体属性抽取;曾建道 等;《江西师范大学学报(自然科学版)》;20130515;第37卷(第03期);279-283 * |
Also Published As
Publication number | Publication date |
---|---|
CN103617290A (zh) | 2014-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103617290B (zh) | 中文机器阅读系统 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN106874378B (zh) | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 | |
CN106055538B (zh) | 主题模型和语义分析相结合的文本标签自动抽取方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN102289522B (zh) | 一种对于文本智能分类的方法 | |
CN108090070B (zh) | 一种中文实体属性抽取方法 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
WO2020108430A1 (zh) | 一种微博情感分析方法及系统 | |
CN107220386A (zh) | 信息推送方法和装置 | |
CN106598940A (zh) | 基于全局优化关键词质量的文本相似度求解算法 | |
CN104268160A (zh) | 一种基于领域词典和语义角色的评价对象抽取方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN105975478A (zh) | 一种基于词向量分析的网络文章所属事件的检测方法和装置 | |
CN103106189B (zh) | 一种挖掘同义属性词的方法和装置 | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN109376352A (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
CN103678275A (zh) | 一种基于主客观语义的双层次文本相似度计算方法 | |
CN111460818A (zh) | 一种基于增强胶囊网络的网页文本分类方法及存储介质 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN110019820A (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN104915399A (zh) | 基于新闻标题的推荐数据处理方法及系统 | |
CN109992784A (zh) | 一种融合多模态信息的异构网络构建和距离度量方法 | |
CN110377690A (zh) | 一种基于远程关系抽取的信息获取方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |