CN104239483A - 一种查找人员影踪的方法及装置 - Google Patents
一种查找人员影踪的方法及装置 Download PDFInfo
- Publication number
- CN104239483A CN104239483A CN201410451454.0A CN201410451454A CN104239483A CN 104239483 A CN104239483 A CN 104239483A CN 201410451454 A CN201410451454 A CN 201410451454A CN 104239483 A CN104239483 A CN 104239483A
- Authority
- CN
- China
- Prior art keywords
- personnel
- trace
- location information
- sentence
- event description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施方式提供了一种查找人员影踪的方法及装置,该方法及装置属于网络通信领域,该方法包括:将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息;在独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定所述地点信息为有效的地点信息;在独立句子中提取人员信息,如提取的人物信息为唯一的人员,则将所述独立句子中的人员、时间、地点作为该人物的一条影踪,并存储该人员影踪。该方法及装置具有其效率较高,不会发生人为错误,当新闻数量特别大时,能获取人员影踪的优点。
Description
技术领域
本发明涉及网络通信领域,尤其涉及一种查找人员影踪的方法及装置。
背景技术
目前大量的新闻报道中都会有新闻人员在具体时间、地点所从事的活动,通过对新闻语料中人员影踪的挖掘,可以向互联网用户呈现出特定人员在特定时间段内去过的地方,所从事过的活动,甚至可以预告他们将要从事的活动。现有技术提供的人员影踪的搜索方法主要通过人工统计特定人员在具体时间、地点所从事的活动。
在实现本发明的过程中,现有技术所提供的技术方案存在如下问题:
现有技术的方案通过人工统计的方法来获取人员影踪的,其效率较低,且容易发生人为错误,当新闻数量特别大时,人工也无法准确统计,进而无法获取人员的影踪。
发明内容
本发明实施方式提供一种查找人员影踪的方法,所述方法包括:
将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息 ;
在包含有时间信息的独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定所述地点信息为有效的地点信息;
在包含有效地点信息的独立句子中提取人员信息,如提取的人员信息为唯一的人员,则将所述独立句子中的人员、时间、地点作为该人员的一条影踪,并存储该人员影踪。
本发明还提供一种查找人员影踪的装置,所述装置包括 :
在间单元,用于将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息 ;
地点单元,用于在包含有时间信息的独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定所述地点信息为有效的地点信息 ;
任务单元,用于在包含有效地点信息的独立句子中提取人员信息,如提取的人员信息为唯一的人员,则将所述独立句子中的人员、时间、地点作为该人员的一条踪迹,并存储该人员影踪。
由上述所提供的技术方案可以看出,本发明实施例的技术方案能自动搜索人员的影踪,具有效率高,不会发生人为错误的优点,且在新闻数量巨大的情况下,也能对任务影踪进行准确的统计。
附图说明
图 1 为本发明提供的一种查找人员影踪的方法的流程图;
图 2 为本发明一实施例提供的一种查找人员影踪的方法的流程图。
图 3 为本发明提供的一种查找人员影踪的装置的结构图。
具体实施方式
本发明实施方式提供一种查找人员影踪的方法,该方法如图1所示,包括:
S11、将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息 ;
获取时间信息的方法可以为,对上述独立的句子使用正则表达式来实现对时间信息的提取;也可以用枚举所有可能的日期,与句子中的日期进行逐个匹配。
上述正则表达式的具体实现方法可以参见 JAVA、C++ 等程序开发语言中相关描述。
S12、在包含有时间信息的独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定该地点信息为有效的地点信息。
上述提取出地点信息的方法可以为 :将独立句子进行分词处理后,提取句子中的地点信息。提取地点信息的方法还可以为 :枚举所有可能的地点信息,与句子中的词进行逐个匹配,该所有的地点信息可以为全国所有的城市名称。
上述趋向描述词集合可以为:
{″在″,″于″,″抵达″,″抵″,″来到″,″前往″,″飞往″,″飞抵″,″返回″,″赶回″,″回″,″莅临″,″赴″,″去″,″到″,″去往″,″访问″,″考察″,″登陆″,″离开″,″赶往″,″重返″,″去″,″来″,″到达″,″飞离″,″行至″,″来回″,″往返″,″奔赴″,″开赴″,″留在″,″进入″,″登录″,″赶到″,″来到了″,″抵达了″,″返回了″,″赶回了″,″赶到了″,″进入了″,″到达了″,″离开了″,″到了″,″去了″,″来了″,″飞离了″}
S13、在包含有效地点信息的独立句子中提取人员信息,如提取的人员信息为唯一的人员,则将该独立句子中的人员、时间、地点作为该人员的一条影踪,并存储该人员影踪。
本发明提供的人员影踪的查找方法能自动查找人员的影踪,具有效率高,不会发生人为错误的优点,且在新闻数量巨大的情况下,也能对任务影踪进行准确的统计。
一实施例,本实施例提供一种查找人员影踪的方法,本实施例的技术场景为,本实施例在数据库存储的新闻数据中查找人员的影踪,该数据库的新闻数据可以由系统定期在网上抓取,然后存储于数据库内,该方法如图 2 所示,包括如下步骤:
S21、将新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息 ;
实现 S21 的具体方法可以为,对上述独立的句子使用正则表达式来实现对时间信息提取,其中上述正则表达式中的日期规则可以为模糊日期规则,如昨天、今天、去年、明年等,也可以为精准日期规则,如 2009-10-17 等 ;当然在实际情况中,用户也可以根据自己的需要对日期规则进行修改,例如增加或减少日期规则的数量。
S22、在包含有时间信息的独立句子中进行分词处理,并提取地点信息,在检测出该地点信息的前一个相邻的词存在于趋向描述词集合时,则确定该地点信息为有效的地点信息 ;
S22 中的地点信息可以为全国区级以上的地点名称,该趋向描述词集合可以为上述 47 个趋向描述词,当然在实际情况中,用户也可以根据自己的需要对趋向描述词集合进行修改,例如增加或减少趋向描述词集合的数量。
上述相邻的词为紧跟地点信息的词,即该地点信息和趋向描述词中间不能存在任何的词以及标点符号。
S23、在包含有效地点信息的独立句子中提取人物信息,如提取的人物信息为唯一的人员,则将该独立句子中的人员、时间、地点作为该人员的一条踪迹。
实现 S23 的方法可以为,采用分词系统的人名识别从独立的句子中提取人员信息,当然在实际情况中也可以采用其他的人名识别方法来提取人员信息,本发明并不局限实现该方法的具体方式。
可选的,上述方法还可以包括下述步骤之一,如单独包括 S24、S25 或 S26;当然也可以包括S24、S25 和 S26 ;还可以包括S24 和 S25。
S24、统计相同的人员影踪出现的次数,并将该增加到存储的人员影踪中。
S25、在具有人员影踪的独立句子中采用获取事件描述词,并对该事件描述词赋予权重值 ;并将该事件描述词和事件描述词的权重值增加到存储的人员影踪中。
上述获取事件描述词的方法可以为下述方式中的任意一种:
方式A、搜索独立句子中与预先存储的事件描述词列表匹配的事件描述词,并将该匹配的事件描述词作为获取的事件描述词。
其实现方法具体为,搜索独立句子中的词,将搜索到的词与预先存储的事件描述词列表中的事件描述词一一对比,如相同且说明具有匹配的事件描述词。
上述事件描述词列表中的事件描述词用户可以根据需要进行设定,如新闻发布会、歌友会、上海经济论坛等等。
方式 B、提取句子中的动词,将该动词作为获取的事件描述词。
上述权重值用户可以按事件的重要程度给每个事件描述词设定一权重值,原则为,方式 A 中的时间描述词的权重值大于方式 B 中的事件描述词权重值。
S26、接收到查找特定人员在特定日期的命令时,在存储的影踪中获取与该特定人员和特定日期相匹配的踪迹,并选择人员影踪的出现次数超出次数阈值且事件描述词的权重值最大的影踪输出。
本实施例提供的人员影踪的搜索方法能自动搜索人员的踪迹,具有效率高的特点,不会发生人为错误的优点,且在新闻数量巨大的情况下,也能对任务影踪进行准确的统计,该方法还可以对相同的人员影踪进行统计,并增加了事件描述词及其权重值,具体的体现了人员影踪的可靠性。
本发明还提供一种查找人员影踪的装置,该装置如图 3所示:包括:
时间单元31,用于将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息 ;
地点单元 32,用于在包含有时间信息的独立句子中提取地点信息;在检测出该地点信息的前一个相邻的词存在于趋向描述词集合时,则确定所述地点信息为有效的地点信息 ;
人物单元 33,用于在包含有效地点信息的独立句子中提取人物信息,如提取的人员信息为唯一的人员,则将所述独立句子中的人员、时间、地点作为该人员的一条踪迹,并存储该人员影踪。
可选的,上述装置还包括:
次数单元 34,用于统计相同的人员影踪出现的次数,并将该增加到存储的人员影踪中。
可选的,上述装置还包括:
事件单元 35,用于在具有人员影踪的独立句子中获取事件描述词,并对该事件描述词赋予权重值 ;并将该事件描述词和事件描述词的权重值增加到存储的人员影踪中。
上述获取事件描述词的具体方式可以参见方法实施例中的相关描述。
可选的,上述装置还包括:
输出单元 36,用于接收到查找特定人员在特定日期的命令时,在存储的影踪中获取与该特定人员和特定日期相匹配的影踪,并选择人员影踪的出现次数超出次数阈值且事件描述词的权重值最大的影踪输出。
本实施例提供的人员影踪的搜索装置能自动搜索人员的影踪,具有效率高的特点,不会发生人为错误的优点,且在新闻数量巨大的情况下,也能对任务影踪进行准确的统计,该方法还可以对相同的人员影踪进行统计,并增加了事件描述词及其权重值,具体的体现了人员影踪的可靠性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述方法步骤,所述的存储介质包括 :ROM/RAM、磁盘、光盘等。
综上所述,本发明具体实施方式提供的技术方案,具有自动搜索人员的影踪,具有效率高的特点,不会发生人为错误的优点,且在新闻数量巨大的情况下,也能对任务影踪进行准确的统计,该方法还可以对相同的人员影踪进行统计,并增加了事件描述词及其权重值,具体的体现了人员影踪的可靠性的优点。
Claims (8)
1.一种查找人员影踪的方法,其特征在于,所述方法包括 :将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息 ;在包含有时间信息的独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定所述地点信息为有效的地点信息 ;在包含有效地点信息的独立句子中提取人员信息,如提取的人员信息为唯一的人员,则将所述独立句子中的人员、时间、地点作为该人员的一条影踪,并存储该人员影踪;在具有人员影踪的独立句子中获取事件描述词,并对该事件描述词赋予权重值 ;并将该事件描述词和事件描述词的权重值增加到存储的人员影踪中。
2.根据权利要求1所述的方法,其特征在于,所述方法在存储该人员影踪之前还包括 :统计相同的人员影踪出现的次数,并将该相同的人员影踪出现的次数增加到存储的人员影踪中。
3.根据权利要求 1 所述的方法,其特征在于,所述在具有人员影踪的独立句子中获取事件描述词包括 :搜索所述独立句子中与预先存储的事件描述词列表匹配的事件描述词,并将该匹配的事件描述词作为获取的事件描述词;或提取句子中的动词,将该动词作为获取的事件描述词。
4.根据权利要求 1 所述方法,其特征在于,所述方法在存储该人员影踪之后,还包括 :接收到查找特定人员在特定日期的命令时,在存储的影踪中获取与该特定人员和特定日期相匹配的影踪,并选择人员影踪的出现次数超出次数阈值且事件描述词的权重值最大的影踪输出。
5.根据权利要求 1 所述的方法,其特征在于,所述在包含有时间信息的独立句子中提取地点信息包括 :将所述独立句子进行分词处理后,提取地点信息。
6.根据权利要求 1 所述的方法,其特征在于,将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息包括 :对所述每个独立的句子采用正则表达式提取所述每个独立句子中的时间信息。
7.一种查找人员影踪的装置,其特征在于,所述装置包括 :时间单元,用于将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息 ;地点单元,用于在包含有时间信息的独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定所述地点信息为有效的地点信息 ;任务单元,用于在包含有效地点信息的独立句子中提取人员信息,如提取的人员信息为唯一的人物,则将所述独立句子中的人员、时间、地点作为该人员的一条影踪,并存储该人员影踪 ;事件单元,用于在具有人员影踪的独立句子中获取事件描述词,并对该事件描述词赋予权重值 ;并将该事件描述词和事件描述词的权重值增加到存储的人员影踪中。
8.根据权利要求 7 所述的装置,其特征在于,所述装置还包括 :次数单元,用于统计相同的人员影踪出现的次数,并将该相同的人员影踪出现的次数增加到存储的人员影踪中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410451454.0A CN104239483A (zh) | 2014-09-08 | 2014-09-08 | 一种查找人员影踪的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410451454.0A CN104239483A (zh) | 2014-09-08 | 2014-09-08 | 一种查找人员影踪的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104239483A true CN104239483A (zh) | 2014-12-24 |
Family
ID=52227542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410451454.0A Pending CN104239483A (zh) | 2014-09-08 | 2014-09-08 | 一种查找人员影踪的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104239483A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101292238A (zh) * | 2005-10-21 | 2008-10-22 | 微软公司 | 语义主题的自动化丰富呈现 |
US20090177484A1 (en) * | 2008-01-06 | 2009-07-09 | Marc Eliot Davis | System and method for message clustering |
CN102053997A (zh) * | 2009-10-29 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 一种人物踪迹的搜索方法及装置 |
US20140236631A1 (en) * | 2006-07-10 | 2014-08-21 | Brevium, Inc. | Method and apparatus for identifying patients overdue for an appointment using standard healthcare billing data |
-
2014
- 2014-09-08 CN CN201410451454.0A patent/CN104239483A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101292238A (zh) * | 2005-10-21 | 2008-10-22 | 微软公司 | 语义主题的自动化丰富呈现 |
US20140236631A1 (en) * | 2006-07-10 | 2014-08-21 | Brevium, Inc. | Method and apparatus for identifying patients overdue for an appointment using standard healthcare billing data |
US20090177484A1 (en) * | 2008-01-06 | 2009-07-09 | Marc Eliot Davis | System and method for message clustering |
CN102053997A (zh) * | 2009-10-29 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 一种人物踪迹的搜索方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bhatia et al. | Automatic labelling of topics with neural embeddings | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
KR102080362B1 (ko) | 쿼리 확장 | |
US20210150142A1 (en) | Method and apparatus for determining feature words and server | |
CN109508458B (zh) | 法律实体的识别方法及装置 | |
CN105389349A (zh) | 词典更新方法及装置 | |
TWI554896B (zh) | Information Classification Method and Information Classification System Based on Product Identification | |
CN110909120B (zh) | 简历搜索/投递方法、装置、系统及电子设备 | |
CN107657048A (zh) | 用户识别方法及装置 | |
CN103914494A (zh) | 一种微博用户身份识别方法及系统 | |
CN108090178B (zh) | 一种文本数据分析方法、装置、服务器和存储介质 | |
CN103313248A (zh) | 一种识别垃圾信息的方法和装置 | |
CN104281565B (zh) | 语义词典构建方法和装置 | |
US20220052976A1 (en) | Answer text processing methods and apparatuses, and key text determination methods | |
KR101638535B1 (ko) | 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체 | |
CN109472008A (zh) | 一种文本相似度计算方法、装置及电子设备 | |
CN103902619A (zh) | 一种网络舆情监控方法及系统 | |
JP2018124617A (ja) | 教師データ収集装置、教師データ収集方法、及びプログラム | |
CN103226601A (zh) | 一种图片搜索的方法和装置 | |
CN107480197A (zh) | 实体词识别方法及装置 | |
CN110990708B (zh) | 热点事件确定方法、装置、存储介质及电子设备 | |
CN102053997B (zh) | 一种人物踪迹的搜索方法及装置 | |
CN105608183A (zh) | 一种提供聚合类型回答的方法和装置 | |
KR101487871B1 (ko) | 온라인 기반의 위기관리 대응 매뉴얼 자동 생성장치 | |
CN113868508B (zh) | 写作素材查询方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141224 |
|
WD01 | Invention patent application deemed withdrawn after publication |