CN107451433B - 一种基于文本内容的信息源识别方法与装置 - Google Patents

一种基于文本内容的信息源识别方法与装置 Download PDF

Info

Publication number
CN107451433B
CN107451433B CN201710499053.6A CN201710499053A CN107451433B CN 107451433 B CN107451433 B CN 107451433B CN 201710499053 A CN201710499053 A CN 201710499053A CN 107451433 B CN107451433 B CN 107451433B
Authority
CN
China
Prior art keywords
information source
entity
sentence
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710499053.6A
Other languages
English (en)
Other versions
CN107451433A (zh
Inventor
柳厅文
李全刚
李柢颖
亚静
时金桥
谭建龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201710499053.6A priority Critical patent/CN107451433B/zh
Publication of CN107451433A publication Critical patent/CN107451433A/zh
Application granted granted Critical
Publication of CN107451433B publication Critical patent/CN107451433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/16Program or content traceability, e.g. by watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种基于文本内容的信息源识别方法,适用于非结构化的文本,即自由文本,包括以下步骤:将输入的文本按句子切分并分词;识别出各句子中包含的类型为信息源的实体;如所述实体为其所在句子的信息源,则将其作为一信息源实体;整合各句子得到的信息源实体,作为文本信息识别结果。可以不依赖于网页结构化信息,不依赖于人工特征提取,通过分析文本内容,自动识别非结构化文本的信息源。同时提供对应实现上述方法的装置。

Description

一种基于文本内容的信息源识别方法与装置
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于文本内容的信息源识别方法与装置。
背景技术
信息源作为动态信息的载体,是实施动态监测的重要基础保障,识别文本的信息源,可以用来构建信息源知识库,支撑领域动态信息获取。另一方面,文本中包含更多信息源往往意味着更强的参考性,更高的文本质量,利用文本信息源识别,可以进行文本过滤,从大量文本中筛选出有价值的信息。已有的关于信息源的研究多集中在信息源的特征和分类,信息源挖掘和体系构建,信息源发现等方向,具体到信息源识别的研究较少,仅在阐述实验过程中提及实现方法。已有的报文信息源的识别有基于规则等方法。而对网络信息源的识别主要针对结构化页面,基于链接关系,如网页的内链信息,社交网络的链接引用,或基于来源标注,如门户网站的转载标注,得到文本的信息源。
网络文本信息量大,信息传播快,信息获取成本低廉,已成为重要信息源渠道。同时,由于互联网版权法规的不健全、操作难度大、违法成本低以及运作习惯等,各网站间的相互引用繁杂而混乱,且缺乏明显的引用标志。已有的信息源识别方法,仅依赖页面的链接关系或结构化信息标注,无法处理大量的非结构化页面的信息源识别。而基于规则的方法需要人工提取大量特征,工作量大,且领域间通用性差,不能满足实际的处理需求。
发明内容
针对上述问题,本发明的目的在于提供一种基于文本内容的信息源识别方法及装置,可以不依赖于网页结构化信息,不依赖于人工特征提取,通过分析文本内容,自动识别非结构化文本的信息源。
为达上述目的,本发明采取的技术方案是:
一种基于文本内容的信息源识别方法,适用于非结构化的文本,即自由文本,包括以下步骤:
将输入的文本按句子切分并分词;
识别出各句子中包含的类型为信息源的实体;
如所述实体为其所在句子的信息源,则将其作为一信息源实体;
整合各句子得到的信息源实体,作为文本信息识别结果。
进一步地,对输入的文本按句子切分并分词时,设定一预设句子长度(句子长度指词的数量),并通过截取或补充的方式使各句子长度与该预设句子长度一致。
进一步地,所述类型为信息源的实体为属于媒体名称指示词的词构成的序列。
进一步地,通过采用基于双向LSTM的实体识别方法,各句子中包含的类型为信息源的实体。
进一步地,通过下述步骤识别出各句子中包含的类型为信息源的实体:
用基于百度百科训练word2vec得到的词向量表示句子中的每个词;
在模型训练和测试时,输入为词向量序列,输出为与词向量序列等长的标签序列;
标签采用2tag方法,若词属于媒体名称指示词,则对应标签为‘1’,否则标签为‘0’;
网络结构包括输入层,双向LSTM层和输出层;
依据测试数据得到的序列结果将多个标签为‘1’的词拼接起来,即为句子中包含的类型为信息源的实体。
进一步地,通过采用基于CNN的句子分类方法,判定类型为信息源的实体是否为其所在句子的信息源。
进一步地,判定类型为信息源的实体是否为其所在句子的信息源包括:
将类型为信息源的实体合并为一个词
对每个词的词向量表示拼接位置向量,然后输入到一卷积神经网络结构中;
依据网络输出的测试数据的分类结果,判定该实体是否为其所在句子的信息源。
进一步地,每个词的词向量包含n维的语义向量和m维的位置向量,每个词的向量长度为n+m。
进一步地,所述卷积神经网络结构包括输入层,卷积层,最大池化层,全连接层及输出层,网络的输出为0或1的分类结果。
进一步地,依据预先设定的文本最大信息源个数整合各句子得到的信息源实体,若信息源实体数量超过所述文本最大信息源个数,优先选取所在句子位置在前的信息源实体。
一种基于文本内容的信息源识别装置,包括:
文本预处理模块,用以将输入的文本按句子切分并分词;
实体识别模块,用以识别出各句子中包含的类型为信息源的实体;
信息源判定模块,用以判定所述实体是否为其所在句子的信息源,如是,则将其作为一信息源实体;
输出模块,用以整合各句子得到的信息源实体,作为文本信息识别结果。
具体而言,本发明可以基于文本内容识别其信息源,即判定文本描述内容是否引用自其它机构或网站,如果是,给出引用的结构或网站实体名。通过本发明提供的方法及装置分析文本内容识别信息源,能够避免现有方法识别文本信息源时对网页结构化信息的依赖和对人工提取特征的依赖,提出了基于文本内容的自动化信息源识别方法;并且采用实体识别和句子判定相结合的方法,充分利用了信息源实体内部特征和句式结构特征,不需要大量人工干预,有效解决了基于文本内容的信息源识别问题。
附图说明
图1是本发明一实施例中基于文本内容的信息源识别方法的数据处理流程图
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
如图1所示,在一实施例中,提供了一种基于文本内容的信息源识别方法,适用于非结构化的文本,即自由文本,包括以下步骤:
将输入的文本按句子切分并分词;即将输入的文本按句子切分并分词,逐句进行处理。
识别出各句子中包含的类型为信息源的实体;即识别句子是否包含类型为信息源的实体,如果是,得到句子及其候选信息源实体,进行下一步处理;如果否,跳过步骤3)继续进行下一个句子的处理。
如所述实体为其所在句子的信息源,则将其作为一信息源实体;判断候选信息源实体是否是其所在句子的信息源,如果是,将该候选信息源作为一个信息源实体;
整合各句子得到的信息源实体,作为文本信息识别结果。综合逐句识别出的信息源实体,得到并输出文本信息源识别结果。
对应实现上述方法的装置,包括:
文本预处理模块,用以将输入的文本按句子切分并分词;
实体识别模块,用以识别出各句子中包含的类型为信息源的实体;
信息源判定模块,用以判定所述实体是否为其所在句子的信息源,如是,则将其作为一信息源实体;
输出模块,用以整合各句子得到的信息源实体,作为文本信息识别结果。
具体说明各方法步骤及实现模块:
上述文本预处理模块,主要指对文本按句子切分,并且对句子分词,设定句子最大长度(句子长度指词的数量),超出截取,不足补齐。
上述实体识别模块,抽取属于机构或网站名(媒体名称指示词)的词构成的序列,作为候选信息源实体。采用基于双向LSTM的Seq2seq的方法,用基于百度百科训练word2vec得到的词向量表示句子中的每个词。在模型训练和测试时,输入为词向量序列,输出为标签序列,与词向量序列等长。标签采用2tag方法,若词属于机构或网站名,则对应标签为‘1’,否则标签为‘0’。网络结构包括输入层,双向LSTM层和输出层。最后依据测试数据得到的序列结果将多个标签为‘1’的词拼接起来,即为所在句子的候选信息源实体。采用了基于深度学习的实体识别方式,不需要人工制定规则,相比于基于词匹配的规则方法,花费时间短,效果好,领域间可迁移性强。
上述信息源判定模块,采用基于CNN(卷积神经网络)的分类方法,即给定句子及对应候选信息源实体,判定候选实体是否为该句信息源。网络的输入同样为词向量序列,不同于实体识别模块,首先需要将识别出的候选信息源实体合并为一个词,其次每个词的向量包含n维的语义向量(word2vec训练得到的词向量)和m维的位置向量(计算每个词到候选信息源实体的距离并将其向量化),即每个词的向量长度为n+m。网络结构包括输入层,卷积层,最大池化层,全连接层及输出层。网络的输出为0或1的分类结果。依据测试数据的分类结果,若输出结果为1,即判定为正例,可以认为该实体为句子的信息源实体。该方法借鉴了句子关系分类方法,对每个词的词向量表示拼接位置向量,然后输入到通用的卷积神经网络结构中,实现对词语与句子间关系的判定。
上述输出模块,需要对逐句得到的信息源实体整合。即依据预先设定的每篇文本最大信息源个数处理,若识别的实体数量超过最大个数,优先选取所在句子位置在前的实体。
下面提供一实际案例,该案例具体说明了本发明提供对军事领域,某军事论坛的帖子内容进行信息源识别的过程。
文本预处理,将输入的文本按句子切分并分词,预设的句子最大长度为50。如句子“据英国《简氏防务周刊》11月1日报道称,中国第40艘江岛级(056/056A型)护卫舰10月28日在广州黄埔造船厂下水。”分词得到“['据','英国','《','简氏','防务','周刊','》','11','月','1','日','报道','称',',','中国','第','40','艘','江岛','级','(','056','/','056','A型',')','护卫舰','10','月','28','日','在','广州','黄埔','造船厂','下水','。']”,长度为37,则在句子后面填充13个‘PADDING’作为填充词,得到词向量序列。如果长度超过50,从前到后截取50词即可。
实体识别模块,采用基于双向LSTM的Seq2seq的方法。查词向量表(百度百科语料训练word2vec得到的词向量)表示句子中的每个词,词向量维度为50,则句子可以表示为50*40维的向量。将向量输入得到训练好的双向LSTM网络,得到序列标注结果。依据测试数据得到的序列结果将多个标签为‘1’的词拼接起来,即为所在句子的候选信息源实体。对例句可以得到'简氏','防务','周刊'三个词对应的标签为‘1’,将三个词拼接起来,得到候选信息源实体“简氏防务周刊”。
信息源判定模块,采用基于CNN的分类方法。例句词向量序列为['据','英国','《','简氏防务周刊','》','11','月','1','日','报道','称',',','中国','第','40','艘','江岛','级','(','056','/','056','A型',')','护卫舰','10','月','28','日','在','广州','黄埔','造船厂','下水','。']”,此时句子长度为35,填充15个‘PADDING’,句子序列长度为50。计算每个词到信息源实体“简氏防务周刊”的距离并转换为10维向量。拼接每个词的语义向量50维,得到60*40维的向量。输入训练好的CNN神经网络,得到结果为1,即可以认为该实体为句子的信息源实体。
输出模块,依照文本长度,预先设定每篇文本的信息源个数上限为3,取一篇文本识别出的前3个信息源实体组合,即为最终识别结果。
显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

Claims (5)

1.一种基于文本内容的信息源识别方法,包括以下步骤:
将输入的文本按句子切分并分词;
识别出各句子中包含的类型为信息源的实体,包括:
用基于百度百科训练word2vec得到的词向量表示句子中的每个词;
在模型训练和测试时,输入为词向量序列,输出为与词向量序列等长的标签序列;
标签采用2tag方法,若词属于媒体名称指示词,则对应标签为‘1’,否则标签为‘0’;
网络结构包括输入层,双向LSTM层和输出层;
将多个标签为‘1’的词拼接起来,得到所在句子的候选信息源实体;通过采用基于CNN的句子分类方法,判定类型为信息源的实体是否为其所在句子的信息源,如所述实体为其所在句子的信息源,则将其作为一信息源实体,判定类型为信息源的实体是否为其所在句子的信息源包括:
首先需要将识别出的候选信息源实体合并为一个词,其次每个词的向量包含n维的词向量和m维的位置向量,每个词的向量长度为n+m;
对每个词的词向量表示拼接位置向量,然后输入到一卷积神经网络结构中;
依据网络输出的分类结果,判定该实体是否为其所在句子的信息源;
整合各句子得到的信息源实体,作为文本信息识别结果。
2.如权利要求1所述的基于文本内容的信息源识别方法,其特征在于,对输入的文本按句子切分并分词时,设定一预设句子长度,并通过截取或补充的方式使各句子长度与该预设句子长度一致。
3.如权利要求1所述的基于文本内容的信息源识别方法,其特征在于,通过采用基于双向LSTM的实体识别方法,各句子中包含的类型为信息源的实体。
4.如权利要求1所述的基于文本内容的信息源识别方法,其特征在于,所述卷积神经网络结构包括输入层,卷积层,最大池化层,全连接层及输出层,网络的输出为0或1的分类结果。
5.如权利要求1所述的基于文本内容的信息源识别方法,其特征在于,依据预先设定的文本最大信息源个数整合各句子得到的信息源实体,若信息源实体数量超过所述文本最大信息源个数,优先选取所在句子位置在前的信息源实体。
CN201710499053.6A 2017-06-27 2017-06-27 一种基于文本内容的信息源识别方法与装置 Active CN107451433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710499053.6A CN107451433B (zh) 2017-06-27 2017-06-27 一种基于文本内容的信息源识别方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710499053.6A CN107451433B (zh) 2017-06-27 2017-06-27 一种基于文本内容的信息源识别方法与装置

Publications (2)

Publication Number Publication Date
CN107451433A CN107451433A (zh) 2017-12-08
CN107451433B true CN107451433B (zh) 2020-05-22

Family

ID=60487086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710499053.6A Active CN107451433B (zh) 2017-06-27 2017-06-27 一种基于文本内容的信息源识别方法与装置

Country Status (1)

Country Link
CN (1) CN107451433B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108227565A (zh) * 2017-12-12 2018-06-29 深圳和而泰数据资源与云技术有限公司 一种信息处理方法、终端及计算机可读介质
CN108647263B (zh) * 2018-04-28 2022-04-12 淮阴工学院 一种基于网页切分爬取的网络地址置信度评估方法
CN110399487B (zh) * 2019-07-01 2021-09-28 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
CN112256840A (zh) * 2020-11-12 2021-01-22 北京亚鸿世纪科技发展有限公司 改进迁移学习模型进行工业互联网发现并提取信息的装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570179A (zh) * 2016-11-10 2017-04-19 中国科学院信息工程研究所 一种面向评价性文本的核心实体识别方法及装置
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106570179A (zh) * 2016-11-10 2017-04-19 中国科学院信息工程研究所 一种面向评价性文本的核心实体识别方法及装置
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置

Also Published As

Publication number Publication date
CN107451433A (zh) 2017-12-08

Similar Documents

Publication Publication Date Title
CN107451433B (zh) 一种基于文本内容的信息源识别方法与装置
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN107562918A (zh) 一种数学题知识点发现与批量标签获取方法
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN108664474B (zh) 一种基于深度学习的简历解析方法
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
CN105718586A (zh) 分词的方法及装置
CN111274814B (zh) 一种新型的半监督文本实体信息抽取方法
CN103077164A (zh) 文本分析方法及文本分析器
WO2023108991A1 (zh) 模型的训练方法、知识分类方法、装置、设备、介质
CN112163097A (zh) 一种军事知识图谱构建方法及系统
CN103559181A (zh) 一种双语语义关系分类模型的建立方法和系统
CN114328951B (zh) 一种融合信息获取和三元组抽取的知识图谱构建方法
CN104346326A (zh) 一种情绪文本的情绪特征确定方法及装置
CN112052675A (zh) 一种非结构化文本的敏感信息检测方法及检测装置
CN115775363A (zh) 一种基于文本与视频融合的违规视频检测方法
CN103500216A (zh) 一种文件信息的提取方法
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
CN111814476A (zh) 一种实体关系的抽取方法和装置
CN111209831A (zh) 一种基于分类算法的文档表格内容识别方法及装置
CN114298021A (zh) 基于情感值选择评论的谣言检测方法
CN109460730B (zh) 一种表格换行换页的分析方法及装置
CN110826330B (zh) 人名识别方法及装置、计算机设备及可读存储介质
CN115730071A (zh) 电力舆情事件的抽取方法、装置、电子设备及存储介质
CN114298041A (zh) 网络安全命名实体的识别方法及识别装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant