CN102053997B - 一种人物踪迹的搜索方法及装置 - Google Patents

一种人物踪迹的搜索方法及装置 Download PDF

Info

Publication number
CN102053997B
CN102053997B CN200910235898.XA CN200910235898A CN102053997B CN 102053997 B CN102053997 B CN 102053997B CN 200910235898 A CN200910235898 A CN 200910235898A CN 102053997 B CN102053997 B CN 102053997B
Authority
CN
China
Prior art keywords
sentence
character
event description
location information
description word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200910235898.XA
Other languages
English (en)
Other versions
CN102053997A (zh
Inventor
段孟成
李务斌
贾自艳
姜爱荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN200910235898.XA priority Critical patent/CN102053997B/zh
Publication of CN102053997A publication Critical patent/CN102053997A/zh
Application granted granted Critical
Publication of CN102053997B publication Critical patent/CN102053997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施方式提供了一种人物踪迹的搜索方法及装置,该方法及装置属于网络通信领域,该方法包括:将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息;在独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定所述地点信息为有效的地点信息;在独立句子中提取人物信息,如提取的人物信息为唯一的人物,则将所述独立句子中的人物、时间、地点作为该人物的一条踪迹,并存储该人物踪迹。该方法及装置具有其效率较高,不会发生人为错误,当新闻数量特别大时,能获取人物踪迹的优点。

Description

一种人物踪迹的搜索方法及装置
技术领域
本发明涉及网络通信领域,尤其涉及一种人物踪迹的搜索方法及装置。
背景技术
目前大量的新闻报道中都会有新闻人物在具体时间、地点所从事的活动,通过对新闻语料中人物踪迹的挖掘,可以向互联网用户呈现出特定人物在特定时间段内去过的地方,所从事过的活动,甚至可以预告他们将要从事的活动。现有技术提供的人物踪迹的搜索方法主要通过人工统计特定人物在具体时间、地点所从事的活动。
在实现本发明的过程中,现有技术所提供的技术方案存在如下问题:
现有技术的方案通过人工统计的方法来获取人物踪迹的,其效率较低,且容易发生人为错误,当新闻数量特别大时,人工也无法准确统计,进而无法获取人物的踪迹。
发明内容
本发明实施方式提供一种人物踪迹的搜索方法,所述方法包括:
将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息;
在包含有时间信息的独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定所述地点信息为有效的地点信息;
在包含有效地点信息的独立句子中提取人物信息,如提取的人物信息为唯一的人物,则将所述独立句子中的人物、时间、地点作为该人物的一条踪迹,并存储该人物踪迹。
本发明还提供一种人物踪迹的搜索装置,所述装置包括:
时间单元,用于将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息;
地点单元,用于在包含有时间信息的独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定所述地点信息为有效的地点信息;
任务单元,用于在包含有效地点信息的独立句子中提取人物信息,如提取的人物信息为唯一的人物,则将所述独立句子中的人物、时间、地点作为该人物的一条踪迹,并存储该人物踪迹。
由上述所提供的技术方案可以看出,本发明实施例的技术方案能自动搜索人物的踪迹,具有效率高,不会发生人为错误的优点,且在新闻数量巨大的情况下,也能对任务踪迹进行准确的统计。
附图说明
图1为本发明提供的一种人物踪迹的搜索方法的流程图;
图2为本发明一实施例提供的一种人物踪迹的搜索方法的流程图。
图3为本发明提供的一种人物踪迹的搜索装置的结构图
具体实施方式
本发明实施方式提供一种人物踪迹的搜索方法,该方法如图1所示,包括:
S11、将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息;
获取时间信息的方法可以为,对上述独立的句子使用正则表达式来实现对时间信息的提取;也可以用枚举所有可能的日期,与句子中的日期进行逐个匹配。
上述正则表达式的具体实现方法可以参见JAVA、C++等程序开发语言中相关描述。
S12、在包含有时间信息的独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定该地点信息为有效的地点信息。
上述提取出地点信息的方法可以为:将独立句子进行分词处理后,提取句子中的地点信息。提取地点信息的方法还可以为:枚举所有可能的地点信息,与句子中的词进行逐个匹配,该所有的地点信息可以为全国所有的城市名称。
上述趋向描述词集合可以为:
{″在″,″于″,″抵达″,″抵″,″来到″,″前往″,″飞往″,″飞抵″,″返回″,″赶回″,″回″,″莅临″,″赴″,″去″,″到″,″去往″,″访问″,″考察″,″登陆″,″离开″,″赶往″,″重返″,″去″,″来″,″到达″,″飞离″,″行至″,″来回″,″往返″,″奔赴″,″开赴″,″留在″,″进入″,″登录″,″赶到″,″来到了″,″抵达了″,″返回了″,″赶回了″,″赶到了″,″进入了″,″到达了″,″离开了″,″到了″,″去了″,″来了″,″飞离了″}
S13、在包含有效地点信息的独立句子中提取人物信息,如提取的人物信息为唯一的人物,则将该独立句子中的人物、时间、地点作为该人物的一条踪迹,并存储该人物踪迹。
本发明提供的人物踪迹的搜索方法能自动搜索人物的踪迹,具有效率高,不会发生人为错误的优点,且在新闻数量巨大的情况下,也能对任务踪迹进行准确的统计。
一实施例,本实施例提供一种人物踪迹的搜索方法,本实施例的技术场景为,本实施例在数据库存储的新闻数据中搜索人物的踪迹,该数据库的新闻数据可以由系统定期在网上抓取,然后存储于数据库内,该方法如图2所示,包括如下步骤:
S21、将新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息;
实现S21的具体方法可以为,对上述独立的句子使用正则表达式来实现对时间信息提取,其中上述正则表达式中的日期规则可以为模糊日期规则,如昨天、今天、去年、明年等,也可以为精准日期规则,如2009-10-17等;当然在实际情况中,用户也可以根据自己的需要对日期规则进行修改,例如增加或减少日期规则的数量。
S22、在包含有时间信息的独立句子中进行分词处理,并提取地点信息,在检测出该地点信息的前一个相邻的词存在于趋向描述词集合时,则确定该地点信息为有效的地点信息;
S22中的地点信息可以为全国区级以上的地点名称,该趋向描述词集合可以为上述47个趋向描述词,当然在实际情况中,用户也可以根据自己的需要对趋向描述词集合进行修改,例如增加或减少趋向描述词集合的数量。
上述相邻的词为紧跟地点信息的词,即该地点信息和趋向描述词中间不能存在任何的词以及标点符号。
S23、在包含有效地点信息的独立句子中提取人物信息,如提取的人物信息为唯一的人物,则将该独立句子中的人物、时间、地点作为该人物的一条踪迹。
实现S23的方法可以为,采用分词系统的人名识别从独立的句子中提取人物信息,当然在实际情况中也可以采用其他的人名识别方法来提取人物信息,本发明并不局限实现该方法的具体方式。
可选的,上述方法还可以包括下述步骤之一,如单独包括S24、S25或S26;当然也可以包括S24、S25和S26;还可以包括S24和S25。
S24、统计相同的人物踪迹出现的次数,并将该增加到存储的人物踪迹中。
S25、在具有人物踪迹的独立句子中采用获取事件描述词,并对该事件描述词赋予权重值;并将该事件描述词和事件描述词的权重值增加到存储的人物踪迹中。
上述获取事件描述词的方法可以为下述方式中的任意一种:
方式A、搜索独立句子中与预先存储的事件描述词列表匹配的事件描述词,并将该匹配的事件描述词作为获取的事件描述词。
其实现方法具体为,搜索独立句子中的词,将搜索到的词与预先存储的事件描述词列表中的事件描述词一一对比,如相同且说明具有匹配的事件描述词。
上述事件描述词列表中的事件描述词用户可以根据需要进行设定,如新闻发布会、歌友会、上海经济论坛等等。
方式B、提取句子中的动词,将该动词作为获取的事件描述词。
上述权重值用户可以按事件的重要程度给每个事件描述词设定一权重值,原则为,方式A中的时间描述词的权重值大于方式B中的事件描述词权重值。
增加次数、事件描述词和描述词的权重值后的踪迹具体的表示方式可以如下表:
S26、接收到查找特定人物在特定日期的命令时,在存储的踪迹中获取与该特定人物和特定日期相匹配的踪迹,并选择人物踪迹的出现次数超出次数阈值且事件描述词的权重值最大的踪迹输出。
本实施例提供的人物踪迹的搜索方法能自动搜索人物的踪迹,具有效率高的特点,不会发生人为错误的优点,且在新闻数量巨大的情况下,也能对任务踪迹进行准确的统计,该方法还可以对相同的人物踪迹进行统计,并增加了事件描述词及其权重值,具体的体现了人物踪迹的可靠性。
本发明还提供一种人物踪迹的搜索装置,该装置如图3所示:包括:
时间单元31,用于将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息;
地点单元32,用于在包含有时间信息的独立句子中提取地点信息;在检测出该地点信息的前一个相邻的词存在于趋向描述词集合时,则确定所述地点信息为有效的地点信息;
人物单元33,用于在包含有效地点信息的独立句子中提取人物信息,如提取的人物信息为唯一的人物,则将所述独立句子中的人物、时间、地点作为该人物的一条踪迹,并存储该人物踪迹。
可选的,上述装置还包括:
次数单元34,用于统计相同的人物踪迹出现的次数,并将该增加到存储的人物踪迹中。
可选的,上述装置还包括:
事件单元35,用于在具有人物踪迹的独立句子中获取事件描述词,并对该事件描述词赋予权重值;并将该事件描述词和事件描述词的权重值增加到存储的人物踪迹中。
上述获取事件描述词的具体方式可以参见方法实施例中的相关描述。
可选的,上述装置还包括:
输出单元36,用于接收到查找特定人物在特定日期的命令时,在存储的踪迹中获取与该特定人物和特定日期相匹配的踪迹,并选择人物踪迹的出现次数超出次数阈值且事件描述词的权重值最大的踪迹输出。
本实施例提供的人物踪迹的搜索装置能自动搜索人物的踪迹,具有效率高的特点,不会发生人为错误的优点,且在新闻数量巨大的情况下,也能对任务踪迹进行准确的统计,该方法还可以对相同的人物踪迹进行统计,并增加了事件描述词及其权重值,具体的体现了人物踪迹的可靠性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述方法步骤,所述的存储介质包括:ROM/RAM、磁盘、光盘等。
综上所述,本发明具体实施方式提供的技术方案,具有自动搜索人物的踪迹,具有效率高的特点,不会发生人为错误的优点,且在新闻数量巨大的情况下,也能对任务踪迹进行准确的统计,该方法还可以对相同的人物踪迹进行统计,并增加了事件描述词及其权重值,具体的体现了人物踪迹的可靠性的优点。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (9)

1.一种人物踪迹的搜索方法,其特征在于,所述方法包括:
将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息;
在包含有时间信息的独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定所述地点信息为有效的地点信息;
在包含有效地点信息的独立句子中提取人物信息,如提取的人物信息为唯一的人物,则将所述独立句子中的人物、时间、地点作为该人物的一条踪迹,并存储该人物踪迹;
在具有人物踪迹的独立句子中获取事件描述词,并对该事件描述词赋予权重值;并将该事件描述词和事件描述词的权重值增加到存储的人物踪迹中。
2.根据权利要求1所述的方法,其特征在于,所述方法在存储该人物踪迹之前还包括:
统计相同的人物踪迹出现的次数,并将该相同的人物踪迹出现的次数增加到存储的人物踪迹中。
3.根据权利要求1所述的方法,其特征在于,所述在具有人物踪迹的独立句子中获取事件描述词包括:
搜索所述独立句子中与预先存储的事件描述词列表匹配的事件描述词,并将该匹配的事件描述词作为获取的事件描述词;
或提取句子中的动词,将该动词作为获取的事件描述词。
4.根据权利要求1所述方法,其特征在于,所述方法在存储该人物踪迹之后,还包括:
接收到查找特定人物在特定日期的命令时,在存储的踪迹中获取与该特定人物和特定日期相匹配的踪迹,并选择人物踪迹的出现次数超出次数阈值且事件描述词的权重值最大的踪迹输出。
5.根据权利要求1所述的方法,其特征在于,所述在包含有时间信息的独立句子中提取地点信息包括:
将所述独立句子进行分词处理后,提取地点信息。
6.根据权利要求1所述的方法,其特征在于,将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息包括:
对所述每个独立的句子采用正则表达式提取所述每个独立句子中的时间信息。
7.一种人物踪迹的搜索装置,其特征在于,所述装置包括:
时间单元,用于将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息;
地点单元,用于在包含有时间信息的独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定所述地点信息为有效的地点信息;
任务单元,用于在包含有效地点信息的独立句子中提取人物信息,如提取的人物信息为唯一的人物,则将所述独立句子中的人物、时间、地点作为该人物的一条踪迹,并存储该人物踪迹;
事件单元,用于在具有人物踪迹的独立句子中获取事件描述词,并对该事件描述词赋予权重值;并将该事件描述词和事件描述词的权重值增加到存储的人物踪迹中。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
次数单元,用于统计相同的人物踪迹出现的次数,并将该相同的人物踪迹出现的次数增加到存储的人物踪迹中。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
输出单元,用于接收到查找特定人物在特定日期的命令时,在存储的踪迹中获取与该特定人物和特定日期相匹配的踪迹,并选择人物踪迹的出现次数超出次数阈值且事件描述词的权重值最大的踪迹输出。
CN200910235898.XA 2009-10-29 2009-10-29 一种人物踪迹的搜索方法及装置 Active CN102053997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910235898.XA CN102053997B (zh) 2009-10-29 2009-10-29 一种人物踪迹的搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910235898.XA CN102053997B (zh) 2009-10-29 2009-10-29 一种人物踪迹的搜索方法及装置

Publications (2)

Publication Number Publication Date
CN102053997A CN102053997A (zh) 2011-05-11
CN102053997B true CN102053997B (zh) 2014-06-18

Family

ID=43958331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910235898.XA Active CN102053997B (zh) 2009-10-29 2009-10-29 一种人物踪迹的搜索方法及装置

Country Status (1)

Country Link
CN (1) CN102053997B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239483A (zh) * 2014-09-08 2014-12-24 刘健萍 一种查找人员影踪的方法及装置
CN111723211A (zh) * 2019-03-19 2020-09-29 阿里巴巴集团控股有限公司 一种信息处理方法、装置、电子设备及计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687924A (zh) * 2005-04-28 2005-10-26 中国科学院计算技术研究所 互联网人物信息搜索引擎的生成方法
CN101292238A (zh) * 2005-10-21 2008-10-22 微软公司 语义主题的自动化丰富呈现

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687924A (zh) * 2005-04-28 2005-10-26 中国科学院计算技术研究所 互联网人物信息搜索引擎的生成方法
CN101292238A (zh) * 2005-10-21 2008-10-22 微软公司 语义主题的自动化丰富呈现

Also Published As

Publication number Publication date
CN102053997A (zh) 2011-05-11

Similar Documents

Publication Publication Date Title
CN100405371C (zh) 一种提取新词的方法和系统
US10496687B2 (en) Input method, device, and electronic apparatus
CN110020422B (zh) 特征词的确定方法、装置和服务器
CN1924858B (zh) 一种获取新词的方法、装置以及一种输入法系统
CN1637741B (zh) 笔式计算系统中的标记管理
CN109508458B (zh) 法律实体的识别方法及装置
CN104063387A (zh) 在文本中抽取关键词的装置和方法
BR112014028739B1 (pt) Sistema e método para criar objetos estruturados de evento
CN103914494A (zh) 一种微博用户身份识别方法及系统
CN103699625A (zh) 基于关键词进行检索的方法及装置
CN101996195A (zh) 音频文件中语音信息的搜索方法、装置及设备
CN103577989A (zh) 一种基于产品识别的信息分类方法及信息分类系统
CN105787095A (zh) 互联网新闻的自动生成方法和装置
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN110909120B (zh) 简历搜索/投递方法、装置、系统及电子设备
CN103778200A (zh) 一种报文信息源抽取方法及其系统
CN103365849A (zh) 关键词检索方法和设备
CN102193920A (zh) 一种人名词库生成方法、装置及文字输入系统
CN103488782A (zh) 一种利用歌词识别音乐情感的方法
CN101271449B (zh) 裁减词表和为汉字串注音的方法及装置
CN103226601A (zh) 一种图片搜索的方法和装置
CN108345694B (zh) 一种基于主题数据库的文献检索方法及系统
CN101470701A (zh) 支持基于有限状态机的语义规则的文本分析器及其方法
CN102053997B (zh) 一种人物踪迹的搜索方法及装置
JP2018124617A (ja) 教師データ収集装置、教師データ収集方法、及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20151218

Address after: The South Road in Guangdong province Shenzhen city Fiyta building 518057 floor 5-10 Nanshan District high tech Zone

Patentee after: Shenzhen Tencent Computer System Co., Ltd.

Address before: 2 East 403 room, SEG science and technology garden, Futian District, Guangdong, Shenzhen 518028, China

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.