CN111753197A - 新闻要素的提取方法、装置、计算机设备和存储介质 - Google Patents
新闻要素的提取方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111753197A CN111753197A CN202010560759.0A CN202010560759A CN111753197A CN 111753197 A CN111753197 A CN 111753197A CN 202010560759 A CN202010560759 A CN 202010560759A CN 111753197 A CN111753197 A CN 111753197A
- Authority
- CN
- China
- Prior art keywords
- news
- information value
- display
- text
- news text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000000007 visual effect Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 10
- 238000003379 elimination reaction Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 8
- 230000008030 elimination Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Electrically Operated Instructional Devices (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种新闻要素的提取方法、装置、计算机设备和存储介质,该方法包括:获取至少一个目标类型的新闻文本,并将各新闻文本输入至预先训练的要素提取模型中,所述要素提取模型使用多个目标类型的新闻训练样本训练得到;获取所述要素提取模型输出的,与各所述新闻文本分别对应的至少一个要素的要素信息值;响应于用户输入的展示要素,获取与所述展示要素匹配的展示界面;根据各所述新闻文本中与所述展示要素对应的要素信息值,将与各所述新闻文本分别对应的至少一个要素的要素信息值填充于所述展示界面中进行展示。使用本发明的技术方案,可以实现自动、准确的识别特定类型新闻事件中的各要素,并提高新闻事件要素的可视化展示效果。
Description
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种新闻要素的提取方法、装置、计算机设备和存储介质。
背景技术
随着信息时代的来临,各种类型的新闻数量呈爆炸性增长,新闻事件中通常包括时间、地点、人物、主语、触发词以及宾语等要素,如何准确提取新闻事件中的各要素,对整合新闻资源,提供趋势分析和预测具有重要的意义。
现有技术中,提取新闻事件的各要素,一般通过提取特征词或者训练提取模型的方式实现。发明人在实现本发明的过程中,发现现有技术存在以下缺陷:采用提取特征词的方式提取要素,提取结果不准确,且容易遗漏;采用训练提取模型的方式进行要素提取,对不同类型新闻的针对性不强,要素提取结果的展示效果较差。
发明内容
本发明实施例提供一种新闻要素的提取方法、装置、计算机设备和存储介质,以实现自动、准确的识别特定类型新闻事件中的各要素,并提高新闻事件要素的可视化展示效果。
第一方面,本发明实施例提供了一种新闻要素的提取方法,该方法包括:
获取至少一个目标类型的新闻文本,并将各新闻文本分别输入至预先训练的要素提取模型中,所述要素提取模型使用多个目标类型的新闻训练样本训练得到;
获取所述要素提取模型输出的,与各所述新闻文本分别对应的至少一个要素的要素信息值;
响应于用户输入的展示要素,获取与所述展示要素匹配的展示界面;
根据各所述新闻文本中与所述展示要素对应的要素信息值,将与各所述新闻文本分别对应的至少一个要素的要素信息值填充于所述展示界面中进行展示。
第二方面,本发明实施例还提供了一种新闻要素的提取装置,该装置包括:
新闻文本获取模块,用于获取至少一个目标类型的新闻文本,并将各新闻文本分别输入至预先训练的要素提取模型中,所述要素提取模型使用多个目标类型的新闻训练样本训练得到;
要素信息值获取模块,用于获取所述要素提取模型输出的,与各所述新闻文本分别对应的至少一个要素的要素信息值;
展示界面获取模块,用于响应于用户输入的展示要素,获取与所述展示要素匹配的展示界面;
要素信息值展示模块,用于根据各所述新闻文本中与所述展示要素对应的要素信息值,将与各所述新闻文本分别对应的至少一个要素的要素信息值填充于所述展示界面中进行展示。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一所述的新闻要素的提取方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例中任一所述的新闻要素的提取方法。
本发明实施例通过预先训练目标类型新闻的要素提取模型,将目标类型的新闻文本输入至要素提取模型,获取要素提取模型输出的要素的要素信息值,并根据用户选择的展示要素,将各要素的要素信息值展示到展示要素对应的界面中。解决了现有技术中要素提取结果准确性低,对不同类型新闻的针对性不强,以及要素提取结果的展示效果较差的问题,实现了自动、准确的识别特定类型新闻事件中的各要素,并提高了新闻事件要素的可视化展示效果。
附图说明
图1是本发明实施例一中的一种新闻要素的提取方法的流程图;
图2a是本发明实施例二中的一种新闻要素的提取方法的流程图;
图2b是适用于本发明实施例中的一种恐怖袭击新闻的要素提取方法的流程图;
图3是本发明实施例三中的一种新闻要素的提取装置的结构示意图;
图4是本发明实施例四中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种新闻要素的提取方法的流程图,本实施例可适用于对目标类型新闻进行要素提取,并进行可视化展示的情况,该方法可以由新闻要素的提取装置来执行,该装置可以由软件和/或硬件来实现,并一般集成在计算机设备中,可以与地图等第三方应用配合使用。
如图1所示,本发明实施例的技术方案,具体包括如下步骤:
S110、获取至少一个目标类型的新闻文本,并将各新闻文本分别输入至预先训练的要素提取模型中,所述要素提取模型使用多个目标类型的新闻训练样本训练得到。
其中,目标类型可以为恐怖袭击新闻类型、军事新闻类型以及娱乐新闻类型等,不同类型的新闻,需要提取的要素类型不同。例如,对于恐怖袭击新闻类型,需要提取时间、地点、人物、死亡人数、受伤人数以及袭击手段等要素。对于军事新闻类型,需要提取时间、地点、人物、国家以及军事行动类型等要素。要素提取模型可以为根据机器学习算法预先训练的,与不同类型的新闻相对应的模型,新闻训练样本可以为用于进行要素提取模型训练的多个目标类型的新闻文本。
示例性的,要素提取模型的训练过程可以为:获取多个目标类型的新闻训练样本,对新闻训练样本中的要素进行标注,将标注出来的要素对应的要素信息值转换为标准格式,将新闻训练样本输入至机器学习模型进行模型训练,得到要素提取模型。
在本发明实施例中,将目标类型的新闻文本输入至与目标类型对应的要素提取模型中,这样设置的好处在于,可以使目标类型新闻的要素提取结果更符合目标类型新闻的特点,更加具有针对性。
在本发明一个可选的实施例中,获取至少一个目标类型的新闻文本之后,还可以包括:将各新闻文本转换为标准格式。
其中,标准格式可以包括doc格式、pdf格式以及txt格式等,本发明实施例对标准格式的类型不进行限制。
S120、获取所述要素提取模型输出的,与各所述新闻文本分别对应的至少一个要素的要素信息值。
其中,要素信息值可以指新闻文本中要素所指代的具体信息,例如,当要素为时间时,要素信息值可以为2020年1月1日。要素信息值与要素相对应,一个要素可以对应一个或多个要素信息值。
在本发明实施例中,将目标类型的新闻文本输入至要素提取模型后,要素提取模型输出新闻文本中各要素的要素信息值。
在本发明一个可选的实施例中,所述要素可以包括以下至少一项:时间、地点、人物、主语、触发词以及宾语。
在本发明实施例中,根据新闻类型不同,还可以包括其他要素,本发明实施例对要素的类型不进行限制,可以根据不同类型新闻的特点进行灵活定义。
在本发明一个可选的实施例中,在获取所述要素提取模型输出的,与各所述新闻文本分别对应的至少一个要素的要素信息值之后,还可以包括:如果目标新闻文本中的目标要素对应至少两个要素信息值,则对所述至少两个要素信息值进行多结果消除处理。
在本发明实施例中,进行多结果消除处理,可以防止出现冗余识别。
在本发明一个可选的实施例中,对所述至少两个要素信息值进行多结果消除处理,可以包括:获取目标新闻文本中的触发词,对所述至少两个要素信息值,保留与所述触发词距离最近的要素信息值,并将其他要素信息值删除。
其中,触发词可以为新闻事件的谓词,例如,在“维和部队于2019年12月25日乘飞机返回安曼”中,触发词为“返回”,当新闻文本其他语句中出现其他时间信息值时,时间要素对应多个时间信息值,此时,为了提高要素提取的准确性,保留与触发词距离最近的“2019年12月25日”,作为新闻的时间信息值。保留与触发词最近的要素信息值,可以提高与要素对应的要素信息值识别的准确性。
S130、响应于用户输入的展示要素,获取与所述展示要素匹配的展示界面。
其中,展示要素可以为要素提取模型输出的与新闻文本对应的要素中的一种,不同的展示要素可以对应不同的展示界面,例如,当展示要素为时间时,展示界面可以为时间轴,当展示要素为地点时,展示界面可以为地图,当战士要素为人物时,展示界面可以为人物谱图。
在本发明实施例中,可以根据用户的实际需要,展示不同的展示界面。
S140、根据各所述新闻文本中与所述展示要素对应的要素信息值,将与各所述新闻文本分别对应的至少一个要素的要素信息值填充于所述展示界面中进行展示。
在本发明实施例中,根据展示要素对应的要素信息值,将各新闻的各要素的要素信息值展示在与展示要素匹配的展示界面中。
本实施例的技术方案,通过预先训练目标类型新闻的要素提取模型,将目标类型的新闻文本输入至要素提取模型,获取要素提取模型输出的要素的要素信息值,并根据用户选择的展示要素,将各要素的要素信息值展示到展示要素对应的界面中。解决了现有技术中要素提取结果准确性低,对不同类型新闻的针对性不强,以及要素提取结果的展示效果较差的问题,实现了自动、准确的识别特定类型新闻事件中的各要素,并提高了新闻事件要素的可视化展示效果。
实施例二
图2a是本发明实施例二提供的一种新闻要素的提取方法的流程图,本发明实施例在上述实施例的基础上,对展示要素为时间、地点等时,进行要素信息值展示的过程进行了进一步的具体化,并加入了对要素信息值进行多结果消除的步骤,以及对新闻文本进行标准格式转换的步骤。
相应的,如图2a所示,本发明实施例的技术方案,具体包括如下步骤:
S210、获取至少一个目标类型的新闻文本。
S220、将各新闻文本转换为标准格式。
S230、将各新闻文本分别输入至预先训练的要素提取模型中,所述要素提取模型使用多个目标类型的新闻训练样本训练得到。
S240、获取所述要素提取模型输出的,与各所述新闻文本分别对应的至少一个要素的要素信息值。
S250、判断目标新闻文本中的目标要素是否对应至少两个要素信息值,如果是,则执行S260,否则执行S270。
S260、获取目标新闻文本中的触发词,对所述至少两个要素信息值,保留与所述触发词距离最近的要素信息值,并将其他要素信息值删除。
S270、判断所述要素是否包括时间,如果是,则执行S280,否则执行S290。
S280、将时间信息值转换为标准时间信息值。
在本发明实施例中,当要素包括时间时,将时间要素对应的时间信息值,转换为标准时间信息值格式,本发明实施例对标准时间信息值的具体格式不进行限制,可以为****年**月**日,也可以为****.**.**,也可以为****/**/**。
S290、判断所述要素是否包括地点,如果是,则执行S2100,否则执行S2110。
S2100、将地点信息值与地图中的地点名称进行匹配,并将所述地图中匹配度最高的地点名称作为地点信息值。
在本发明实施例中,当要素包括地点时,将地点要素对应的地点信息值与地图中的地点名称进行匹配,示例性的,可以通过最大匹配原则进行匹配,将匹配度最高的地点的名称作为地点信息值。这样设置的好处在于,将新闻事件中的地点信息值转换为地图中的标准地点名称,便于进行定位,以及在地图中展示新闻事件。
S2110、判断用户输入的展示要素是否为时间,如果是,则执行S2120,否则执行S2150。
S2120、获取时间轴。
在本发明实施例中,当用户选择时间要素为展示要素时,各新闻文本的要素的要素信息值通过时间轴的形式展示。
S2130、将各所述新闻文本的标准时间信息值在所述时间轴上按照时间发生顺序进行排序,并根据排序结果在所述时间轴上标注与各所述新闻文本分别对应的至少一个要素的要素信息值。
在本发明实施例中,将各新闻文本的标准时间信息值按照发生时间顺序进行排序,并将各标准时间信息值标注在时间轴上,同时,将各标准时间信息值对应的新闻文本的其他要素的要素信息值也标注在时间轴上。
S2140、将所述时间轴展示到可视化人机交互界面。
S2150、判断用户输入的展示要素是否为地点,如果是,则执行S2160,否则执行S2190。
S2160、获取地图。
在本发明实施例中,当用户选择地点要素为展示要素时,各新闻文本的要素的要素信息值通过地图的形式进行展示。
S2170、在所述地图中对所述地点信息值对应的地点进行标注,并根据标注结果在所述地图上标注与各所述新闻文本分别对应的至少一个要素的要素信息值。
在本发明实施例中,根据各新闻文本的地点信息值,在地图对应的地点处进行标注,并将各新闻文本的其他要素的要素信息值同样标注在地图上。
S2180、将所述地图展示到可视化人机交互界面。
S2190、结束。
在本发明一个可选的实施例中,图2b提供了一种恐怖袭击新闻的要素提取方法,如图2b所示,该方法的步骤包括:
S1、获取恐怖袭击新闻文本集合。
S2、将恐怖袭击新闻文本转换为统一的格式。
S3、对恐怖袭击新闻文本中各要素的要素信息值进行标注。
S4、根据标注好的恐怖袭击新闻文本,进行模型训练。
其中,S4又包括:
S40、将标注好的恐怖袭击新闻文本中的要素信息值转换为标准格式。
S41、将转换后的恐怖袭击新闻文本输入至机器学习模型中,并将恐怖袭击新闻文本划分为训练文本集合、验证文本集合和测试文本集合。
S42、使用训练文本集合、验证文本集合和测试文本集合进行模型的训练,获得恐怖袭击新闻要素提取模型。
S5、上传待识别新闻文本,将待识别新闻文本转换为统一的格式,调用恐怖袭击新闻要素提取模型,获得待识别新闻文本中的多个要素对应的要素信息值。
S6、对待识别新闻文本中的多个要素对应的要素信息值进行标准化处理。
其中,S6又包括:
S60、将时间信息值转换为标准时间信息值。
S61、将地点信息值与地图中的地点名称进行匹配,并将匹配度最大的地点名称作为地点信息值。
S62、当同一要素对应至少两个要素信息值时,获取待识别新闻文本中的触发词,保留至少两个要素信息值中,与触发词最近的要素信息值。
S7、将标准化处理后的待识别新闻文本的要素信息值在地图中进行展示。
S8、将地图中展示的各个待识别新闻文本根据时间信息值进行排序,并在地图中显示排序结果。
将待识别新闻文本加入恐怖袭击新闻文本集合,进行模型更新。这样设置的好处在于,可以实现模型的持续学习和自动更新。
本实施例的技术方案,通过预先训练目标类型新闻的要素提取模型,将目标类型的新闻文本输入至要素提取模型,获取要素提取模型输出的要素的要素信息值,并根据用户选择的展示要素,显示不同的展示界面,并将各要素的要素信息值展示到展示要素对应的界面中,识别后的新闻文本又可以用于模型的更新。解决了现有技术中要素提取结果准确性低,对不同类型新闻的针对性不强,以及要素提取结果的展示效果较差的问题,实现了自动、准确的识别特定类型新闻事件中的各要素,并针对不同的展示要素,显示不同的展示界面,提高了新闻事件要素的可视化展示效果,实现了要素提取的持续学习和自动更新。
实施例三
图3是本发明实施例三提供的一种新闻要素的提取装置的结构示意图,该装置一般集成在计算机设备中,并可以与地图等第三方应用配合使用。该装置包括:新闻文本获取模块310、要素信息值获取模块320、展示界面获取模块330以及要素信息值展示模块340。其中:
新闻文本获取模块310,用于获取至少一个目标类型的新闻文本,并将各新闻文本分别输入至预先训练的要素提取模型中,所述要素提取模型使用多个目标类型的新闻训练样本训练得到;
要素信息值获取模块320,用于获取所述要素提取模型输出的,与各所述新闻文本分别对应的至少一个要素的要素信息值;
展示界面获取模块330,用于响应于用户输入的展示要素,获取与所述展示要素匹配的展示界面;
要素信息值展示模块340,用于根据各所述新闻文本中与所述展示要素对应的要素信息值,将与各所述新闻文本分别对应的至少一个要素的要素信息值填充于所述展示界面中进行展示。
本实施例的技术方案,通过预先训练目标类型新闻的要素提取模型,将目标类型的新闻文本输入至要素提取模型,获取要素提取模型输出的要素的要素信息值,并根据用户选择的展示要素,将各要素的要素信息值展示到展示要素对应的界面中。解决了现有技术中要素提取结果准确性低,对不同类型新闻的针对性不强,以及要素提取结果的展示效果较差的问题,实现了自动、准确的识别特定类型新闻事件中的各要素,并提高了新闻事件要素的可视化展示效果。
在上述实施例的基础上,所述要素包括以下至少一项:时间、地点、人物、主语、触发词以及宾语。
在上述实施例的基础上,所述装置,还包括:
标准时间信息值转换模块,用于如果所述要素为时间,则将时间信息值转换为标准时间信息值;
所述展示界面获取模块330,包括:
时间轴获取单元,用于获取时间轴;
所述要素信息值展示模块340,包括:
时间轴标注单元,用于将各所述新闻文本的标准时间信息值在所述时间轴上按照时间发生顺序进行排序,并根据排序结果在所述时间轴上标注与各所述新闻文本分别对应的至少一个要素的要素信息值;
时间轴展示单元,用于将所述时间轴展示到可视化人机交互界面。
在上述实施例的基础上,所述装置,还包括:
地点信息值获取模块,用于如果所述要素为地点,则将地点信息值与地图中的地点名称进行匹配,并将所述地图中匹配度最高的地点名称作为地点信息值。
所述展示界面获取模块330,包括:
地图获取单元,用于获取地图;
所述要素信息值展示模块340,包括:
地图标注单元,用于在所述地图中对所述地点信息值对应的地点进行标注,并根据标注结果在所述地图上标注与各所述新闻文本分别对应的至少一个要素的要素信息值;
地图展示单元,用于将所述地图展示到可视化人机交互界面。
在上述实施例的基础上,所述装置,还包括:
多结果消除处理模块,用于如果目标新闻文本中的目标要素对应至少两个要素信息值,则对所述至少两个要素信息值进行多结果消除处理。
在上述实施例的基础上,所述多结果消除处理模块,包括:
要素信息值处理单元,用于获取目标新闻文本中的触发词,对所述至少两个要素信息值,保留与所述触发词距离最近的要素信息值,并将其他要素信息值删除。
在上述实施例的基础上,所述装置,还包括:
格式转换模块,用于将各新闻文本转换为标准格式。
本发明实施例所提供的新闻要素的提取装置可执行本发明任意实施例所提供的新闻要素的提取方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种计算机设备的结构示意图,如图4所示,该计算机设备包括处理器70、存储器71、输入装置72和输出装置73;计算机设备中处理器70的数量可以是一个或多个,图4中以一个处理器70为例;计算机设备中的处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器71作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的新闻要素的提取方法对应的模块(例如,新闻要素的提取装置中的新闻文本获取模块310、要素信息值获取模块320、展示界面获取模块330以及要素信息值展示模块340)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的新闻要素的提取方法。该方法包括:
获取至少一个目标类型的新闻文本,并将各新闻文本分别输入至预先训练的要素提取模型中,所述要素提取模型使用多个目标类型的新闻训练样本训练得到;
获取所述要素提取模型输出的,与各所述新闻文本分别对应的至少一个要素的要素信息值;
响应于用户输入的展示要素,获取与所述展示要素匹配的展示界面;
根据各所述新闻文本中与所述展示要素对应的要素信息值,将与各所述新闻文本分别对应的至少一个要素的要素信息值填充于所述展示界面中进行展示。
存储器71可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器71可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器71可进一步包括相对于处理器70远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置72可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种新闻要素的提取方法,该方法包括:
获取至少一个目标类型的新闻文本,并将各新闻文本分别输入至预先训练的要素提取模型中,所述要素提取模型使用多个目标类型的新闻训练样本训练得到;
获取所述要素提取模型输出的,与各所述新闻文本分别对应的至少一个要素的要素信息值;
响应于用户输入的展示要素,获取与所述展示要素匹配的展示界面;
根据各所述新闻文本中与所述展示要素对应的要素信息值,将与各所述新闻文本分别对应的至少一个要素的要素信息值填充于所述展示界面中进行展示。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的新闻要素的提取方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述新闻要素的提取装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种新闻要素的提取方法,其特征在于,包括:
获取至少一个目标类型的新闻文本,并将各新闻文本分别输入至预先训练的要素提取模型中,所述要素提取模型使用多个目标类型的新闻训练样本训练得到;
获取所述要素提取模型输出的,与各所述新闻文本分别对应的至少一个要素的要素信息值;
响应于用户输入的展示要素,获取与所述展示要素匹配的展示界面;
根据各所述新闻文本中与所述展示要素对应的要素信息值,将与各所述新闻文本分别对应的至少一个要素的要素信息值填充于所述展示界面中进行展示。
2.根据权利要求1所述的方法,其特征在于,所述要素包括以下至少一项:时间、地点、人物、主语、触发词以及宾语。
3.根据权利要求2所述的方法,其特征在于,在获取所述要素提取模型输出的,与各所述新闻文本分别对应的至少一个要素的要素信息值之后,还包括:
如果所述要素为时间,则将时间信息值转换为标准时间信息值;
当所述展示要素为时间时,获取与所述展示要素匹配的展示界面,包括:
获取时间轴;
根据各所述新闻文本中与所述展示要素对应的要素信息值,将与各所述新闻文本分别对应的至少一个要素的要素信息值填充于所述展示界面中进行展示,包括:
将各所述新闻文本的标准时间信息值在所述时间轴上按照时间发生顺序进行排序,并根据排序结果在所述时间轴上标注与各所述新闻文本分别对应的至少一个要素的要素信息值;
将所述时间轴展示到可视化人机交互界面。
4.根据权利要求2所述的方法,其特征在于,在获取所述要素提取模型输出的,与各所述新闻文本分别对应的至少一个要素的要素信息值之后,还包括:
如果所述要素为地点,则将地点信息值与地图中的地点名称进行匹配,并将所述地图中匹配度最高的地点名称作为地点信息值。
当所述展示要素为地点时,获取与所述展示要素匹配的展示界面,包括:
获取地图;
根据各所述新闻文本中与所述展示要素对应的要素信息值,将与各所述新闻文本分别对应的至少一个要素的要素信息值填充于所述展示界面中进行展示,包括:
在所述地图中对所述地点信息值对应的地点进行标注,并根据标注结果在所述地图上标注与各所述新闻文本分别对应的至少一个要素的要素信息值;
将所述地图展示到可视化人机交互界面。
5.根据权利要求1所述的方法,其特征在于,在获取所述要素提取模型输出的,与各所述新闻文本分别对应的至少一个要素的要素信息值之后,还包括:
如果目标新闻文本中的目标要素对应至少两个要素信息值,则对所述至少两个要素信息值进行多结果消除处理。
6.根据权利要求5所述的方法,其特征在于,对所述至少两个要素信息值进行多结果消除处理,包括:
获取目标新闻文本中的触发词,对所述至少两个要素信息值,保留与所述触发词距离最近的要素信息值,并将其他要素信息值删除。
7.根据权利要求1所述的方法,其特征在于,获取至少一个目标类型的新闻文本之后,还包括:
将各新闻文本转换为标准格式。
8.一种新闻要素的提取装置,其特征在于,包括:
新闻文本获取模块,用于获取至少一个目标类型的新闻文本,并将各新闻文本分别输入至预先训练的要素提取模型中,所述要素提取模型使用多个目标类型的新闻训练样本训练得到;
要素信息值获取模块,用于获取所述要素提取模型输出的,与各所述新闻文本分别对应的至少一个要素的要素信息值;
展示界面获取模块,用于响应于用户输入的展示要素,获取与所述展示要素匹配的展示界面;
要素信息值展示模块,用于根据各所述新闻文本中与所述展示要素对应的要素信息值,将与各所述新闻文本分别对应的至少一个要素的要素信息值填充于所述展示界面中进行展示。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的新闻要素的提取方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的新闻要素的提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010560759.0A CN111753197B (zh) | 2020-06-18 | 2020-06-18 | 新闻要素的提取方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010560759.0A CN111753197B (zh) | 2020-06-18 | 2020-06-18 | 新闻要素的提取方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111753197A true CN111753197A (zh) | 2020-10-09 |
CN111753197B CN111753197B (zh) | 2024-04-05 |
Family
ID=72676304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010560759.0A Active CN111753197B (zh) | 2020-06-18 | 2020-06-18 | 新闻要素的提取方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753197B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307336A (zh) * | 2020-10-30 | 2021-02-02 | 中国平安人寿保险股份有限公司 | 热点资讯挖掘与预览方法、装置、计算机设备及存储介质 |
CN113934487A (zh) * | 2021-09-18 | 2022-01-14 | 达而观数据(成都)有限公司 | 一种用户界面元素定位方法、系统、计算机设备和存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017016276A (ja) * | 2015-06-29 | 2017-01-19 | 富士通株式会社 | 略語の拡張方法及び装置 |
CN106909654A (zh) * | 2017-02-24 | 2017-06-30 | 北京时间股份有限公司 | 一种基于新闻文本信息的多级分类系统及方法 |
WO2018036272A1 (zh) * | 2016-08-22 | 2018-03-01 | 上海壹账通金融科技有限公司 | 新闻内容的推送方法、电子装置及计算机可读存储介质 |
CN108334610A (zh) * | 2018-02-06 | 2018-07-27 | 北京神州泰岳软件股份有限公司 | 一种新闻文本分类方法、装置及服务器 |
CN108446355A (zh) * | 2018-03-12 | 2018-08-24 | 深圳证券信息有限公司 | 投融资事件要素抽取方法、装置及设备 |
CN109033358A (zh) * | 2018-07-26 | 2018-12-18 | 李辰洋 | 新闻聚合与智能实体关联的方法 |
CN109241438A (zh) * | 2018-09-27 | 2019-01-18 | 国家计算机网络与信息安全管理中心 | 基于要素的跨通道热点事件发现方法、装置及存储介质 |
CN109815331A (zh) * | 2019-01-07 | 2019-05-28 | 平安科技(深圳)有限公司 | 文本情感分类模型的构建方法、装置和计算机设备 |
WO2020007138A1 (zh) * | 2018-07-03 | 2020-01-09 | 腾讯科技(深圳)有限公司 | 一种事件识别的方法、模型训练的方法、设备及存储介质 |
CN111160005A (zh) * | 2019-11-25 | 2020-05-15 | 国家计算机网络与信息安全管理中心 | 基于事件演化知识本体的事件预测方法、装置及终端设备 |
-
2020
- 2020-06-18 CN CN202010560759.0A patent/CN111753197B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017016276A (ja) * | 2015-06-29 | 2017-01-19 | 富士通株式会社 | 略語の拡張方法及び装置 |
WO2018036272A1 (zh) * | 2016-08-22 | 2018-03-01 | 上海壹账通金融科技有限公司 | 新闻内容的推送方法、电子装置及计算机可读存储介质 |
CN106909654A (zh) * | 2017-02-24 | 2017-06-30 | 北京时间股份有限公司 | 一种基于新闻文本信息的多级分类系统及方法 |
CN108334610A (zh) * | 2018-02-06 | 2018-07-27 | 北京神州泰岳软件股份有限公司 | 一种新闻文本分类方法、装置及服务器 |
CN108446355A (zh) * | 2018-03-12 | 2018-08-24 | 深圳证券信息有限公司 | 投融资事件要素抽取方法、装置及设备 |
WO2020007138A1 (zh) * | 2018-07-03 | 2020-01-09 | 腾讯科技(深圳)有限公司 | 一种事件识别的方法、模型训练的方法、设备及存储介质 |
CN109033358A (zh) * | 2018-07-26 | 2018-12-18 | 李辰洋 | 新闻聚合与智能实体关联的方法 |
CN109241438A (zh) * | 2018-09-27 | 2019-01-18 | 国家计算机网络与信息安全管理中心 | 基于要素的跨通道热点事件发现方法、装置及存储介质 |
CN109815331A (zh) * | 2019-01-07 | 2019-05-28 | 平安科技(深圳)有限公司 | 文本情感分类模型的构建方法、装置和计算机设备 |
CN111160005A (zh) * | 2019-11-25 | 2020-05-15 | 国家计算机网络与信息安全管理中心 | 基于事件演化知识本体的事件预测方法、装置及终端设备 |
Non-Patent Citations (1)
Title |
---|
虞金中等: "基于混合模型的新闻事件要素提取方法", 《计算机系统应用》, pages 169 - 175 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307336A (zh) * | 2020-10-30 | 2021-02-02 | 中国平安人寿保险股份有限公司 | 热点资讯挖掘与预览方法、装置、计算机设备及存储介质 |
CN112307336B (zh) * | 2020-10-30 | 2024-04-16 | 中国平安人寿保险股份有限公司 | 热点资讯挖掘与预览方法、装置、计算机设备及存储介质 |
CN113934487A (zh) * | 2021-09-18 | 2022-01-14 | 达而观数据(成都)有限公司 | 一种用户界面元素定位方法、系统、计算机设备和存储介质 |
CN113934487B (zh) * | 2021-09-18 | 2024-01-23 | 达而观数据(成都)有限公司 | 一种用户界面元素定位方法、系统、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111753197B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800320B (zh) | 一种图像处理方法、设备及计算机可读存储介质 | |
CN109472207B (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN109408821B (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
CN108920450B (zh) | 一种基于电子设备的知识点复习方法及电子设备 | |
CN111459967A (zh) | 结构化查询语句生成方法、装置、电子设备及介质 | |
CN107909088B (zh) | 获取训练样本的方法、装置、设备和计算机存储介质 | |
CN111324713B (zh) | 对话自动回复方法、装置、存储介质和计算机设备 | |
CN111460131A (zh) | 公文摘要提取方法、装置、设备及计算机可读存储介质 | |
CN109634436B (zh) | 输入法的联想方法、装置、设备及可读存储介质 | |
CN111753197B (zh) | 新闻要素的提取方法、装置、计算机设备和存储介质 | |
CN112861527A (zh) | 一种事件抽取方法、装置、设备及存储介质 | |
CN111292751A (zh) | 语义解析方法及装置、语音交互方法及装置、电子设备 | |
CN110750984B (zh) | 命令行字符串处理方法、终端、装置及可读存储介质 | |
CN110222331B (zh) | 谎言识别方法及装置、存储介质、计算机设备 | |
US9542474B2 (en) | Forensic system, forensic method, and forensic program | |
CN111737443B (zh) | 答案文本的处理方法和装置、关键文本的确定方法 | |
CN110941702A (zh) | 一种法律法规和法条的检索方法及装置、可读存储介质 | |
CN110110777A (zh) | 图像处理方法和训练方法、以及装置、介质和计算设备 | |
CN111723235A (zh) | 音乐内容识别方法、装置及设备 | |
CN110895555B (zh) | 数据检索方法和装置、存储介质及电子装置 | |
CN109949090B (zh) | 客户推荐方法、装置、电子设备及介质 | |
CN110188106B (zh) | 一种数据管理方法和装置 | |
CN110647537A (zh) | 数据搜索方法、装置及存储介质 | |
CN109683727A (zh) | 一种数据处理方法及装置 | |
CN111737288B (zh) | 搜索控制方法、装置、终端设备、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: Zhong Guo Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012 Applicant after: Daguan Data Co.,Ltd. Address before: Room 301, 303 and 304, block B, 112 liangxiu Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201203 Applicant before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd. Country or region before: Zhong Guo |
|
GR01 | Patent grant | ||
GR01 | Patent grant |