CN104375985A - 一种从文本中提取物品信息的方法和装置 - Google Patents
一种从文本中提取物品信息的方法和装置 Download PDFInfo
- Publication number
- CN104375985A CN104375985A CN201410687153.8A CN201410687153A CN104375985A CN 104375985 A CN104375985 A CN 104375985A CN 201410687153 A CN201410687153 A CN 201410687153A CN 104375985 A CN104375985 A CN 104375985A
- Authority
- CN
- China
- Prior art keywords
- information
- item information
- data
- article
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种从文本中提取物品信息的方法和装置。该方法,包括:读取文本中携带的文字内容,根据预设的信息提取策略从所述文字内容中提取物品的至少一个信息条目及对应的信息数据;在物品信息列表中查找信息条目;将查找成功的信息条目对应的信息数据添加到物品信息列表;在物品信息列表中添加查找失败的信息条目并将对应的信息数据添加到物品信息列表。通过预设的信息提取策略从文本中获取物品信息的相关内容,再在物品信息列表中查找信息,将相关内容直接添加或新建信息条目后添加,实现了物品信息的大数据快速收集保存。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种从文本中提取物品信息的方法和装置。
背景技术
当前,电子商务快速发展,产品经济日趋繁荣,为广大消费者提供了更多消费途径的同时,也为电子商务网站为海量物品的信息处理提出了越来越高的要求。
在大量的物品信息的编辑过成中,如果全部靠人工对物品网页对产品进行信息管理,需要投入庞大的人力和劳动时间,需要一种快速的数据处理方式对大量的物品信息进行快速处理。
发明内容
本发明提供了一种从文本中提取物品信息的方法和装置,该方法通过预设的信息提取策略从文本中获取物品信息的相关内容,再在物品信息列表中查找信息,将相关内容直接添加或新建信息条目后添加,实现了物品信息的大数据快速收集保存。
为达此目的,本发明采用以下技术方案:
一方面提供一种从文本中提取物品信息的方法,包括:
读取文本中携带的文字内容,根据预设的信息提取策略从所述文字内容中提取物品的至少一个信息条目及对应的信息数据;
在物品信息列表中查找信息条目;
将查找成功的信息条目对应的信息数据添加到物品信息列表;在物品信息列表中添加查找失败的信息条目并将对应的信息数据添加到物品信息列表。
其中,所述物品为电子商务中的物品。
其中,所述信息条目包括物品的品牌、型号和价格。
其中,还包括:
当提取到的物品的品牌和型号与物品信息列表中的品牌和型号相同时,删除物品信息列表中的该品牌与型号对应的信息数据。
其中,所述信息条目还包括添加时间;
所述读取文本中携带的文字内容,根据预设的信息提取策略从所述文字内容中提取物品的至少一个信息条目及对应的信息数据,具体为:
读取文本中携带的文字内容并记录读取的时间作为添加时间,根据预设的信息提取策略从所述文字内容中提取物品的至少一个信息条目及对应的信息数据。
另一方面提供一种从文本中提取物品信息的装置,包括:
文本内容读取模块,用于读取文本中携带的文字内容,根据预设的信息提取策略从所述文字内容中提取物品的至少一个信息条目及对应的信息数据;
信息条目查找模块,用于在物品信息列表中查找信息条目;
信息数据添加模块,用于将查找成功的信息条目对应的信息数据添加到物品信息列表;在物品信息列表中添加查找失败的信息条目并将对应的信息数据添加到物品信息列表。
其中,所述物品为电子商务中的物品。
其中,所述信息条目包括物品的品牌、型号和价格。
其中,还包括:
信息数据删除模块,用于当提取到的物品的品牌和型号与物品信息列表中的品牌和型号相同时,删除物品信息列表中的该品牌与型号对应的信息数据。
其中,所述信息条目还包括添加时间;
所述文本内容读取模块,具体用于:
读取文本中携带的文字内容并记录读取的时间作为添加时间,根据预设的信息提取策略从所述文字内容中提取物品的至少一个信息条目及对应的信息数据。
本发明的有益效果为:通过预设的信息提取策略从文本中获取物品信息的相关内容,再在物品信息列表中查找信息,将相关内容直接添加或新建信息条目后添加,实现了物品信息的大数据快速收集保存。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
图1是本发明具体实施方式中提供的一种从文本中提取物品信息的方法的第一实施例的方法流程图。
图2是本发明具体实施方式中提供的一种从文本中提取物品信息的方法的第二实施例的方法流程图。
图3是本发明具体实施方式中提供的一种从文本中提取物品信息的装置的第一实施例的结构方框图。
图4是本发明具体实施方式中提供的一种从文本中提取物品信息的装置的第二实施例的结构方框图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其是本发明具体实施方式中提供的一种从文本中提取物品信息的方法的第一实施例的方法流程图。本发明中的从文本中提取物品信息的方法主要用于对物品信息进行自动收集,实现大数据的快速处理。如图所示,该方法包括:
步骤S101:读取文本中携带的文字内容,根据预设的信息提取策略从所述文字内容中提取物品的至少一个信息条目及对应的信息数据。
当前许多电子商务网站都是通过多个供货商提供各种物品,在通知供货商供货时准备好各种物品的相关物品信息,对于电子商务网站而言只需要将收到的物品信息集中处理即可,而对于供货商,所有的物品信息在生产过程中已经准备好,所需要做的仅仅是将需要的物品信息进行筛选提供即可。所以整个过程中,没有增加供货商的负担,电子商务网站也不需要重新对物品信息,特别是大数据的物品信息进行处理。
步骤S102:在物品信息列表中查找信息条目。
预先已经设计好物品信息列表,在对物品信息进行处理时,直接根据提取到的信息条目进行查询,对应填入即可。
步骤S103:将查找成功的信息条目对应的信息数据添加到物品信息列表;在物品信息列表中添加查找失败的信息条目并将对应的信息数据添加到物品信息列表。
对于物品信息列表中已经存在的条目,查找到之后直接信息数据对应填入即可;而对于物品信息列表中尚未存在的信息条目,则在物品信息列表中增加新的信息条目,将对应的信息数据添加到新增的信息条目。
综上所述,通过预设的信息提取策略从文本中获取物品信息的相关内容,再在物品信息列表中查找信息,将相关内容直接添加或新建信息条目后添加,实现了物品信息的大数据快速收集保存。
请参考图2,其是本发明具体实施方式中提供的一种从文本中提取物品信息的方法的第二实施例的方法流程图。如图所示,该方法包括:
步骤S201:读取文本中携带的文字内容并记录读取的时间作为添加时间,根据预设的信息提取策略从所述文字内容中提取物品的至少一个信息条目及对应的信息数据。
所述物品为电子商务中的物品。例如用于出售的某种手机。所述信息条目包括物品的品牌、型号和价格。例如A品牌的B型号的手机,价格为C元。
为了实现对物品信息的变化过程的记录,在实际记录过程中物品信息的添加时间,以实现对历史物品信息的跟踪。
在物品信息列表中,还可以为物品设置物品编号的信息条目,每一个新的物品赋予一个独一无二的编号。
步骤S202:在物品信息列表中查找信息条目。
物品信息列表的处理过程可以视为对数据库或表格的处理过程,在此不做进一步说明。
步骤S203:将查找成功的信息条目对应的信息数据添加到物品信息列表;在物品信息列表中添加查找失败的信息条目并将对应的信息数据添加到物品信息列表。
步骤S204:当提取到的物品的品牌和型号与物品信息列表中的品牌和型号相同时,删除物品信息列表中的该品牌与型号对应的信息数据。
为了使得物品信息列表中保存物品信息处于最新更新状态,将之前更新的物品信息予以删除,当然,这只是一种优选的方式,也可以将所有的物品信息保存,从而方便对某一物品的信息变化过程进行全面统计和分析。对应的,对于同一物品的物品信息的添加,可以不用更改物品编号,这里所说的物品信息是指具有相同的物理特征的物品,例如同一品牌、同一型号和同一配置的手机。
在实际的物品信息列表的使用过程中,也可建立物品信息列表与物品的网页之间的关联,物品信息列表之中的数据跟新之后,直接对应网页中的物品信息进行更新,快速在后台进行物品展示的相关工作。
综上所述,通过预设的信息提取策略从文本中获取物品信息的相关内容,再在物品信息列表中查找信息,将相关内容直接添加或新建信息条目后添加,实现了物品信息的大数据快速收集保存。同时,对物品信息的删除也能减少物品信息列表中的冗余数据。
以下是本发明一种从文本中提取物品信息的装置的实施例,装置的实施例基于上述的方法的实施例实现,在装置的实施例中未尽的描述,请参考上述方法的实施例。
请参考图3,其是本发明一种从文本中提取物品信息的装置的第一实施例的结构方框图。如图所示,该装置包括:
文本内容读取模块310,用于读取文本中携带的文字内容,根据预设的信息提取策略从所述文字内容中提取物品的至少一个信息条目及对应的信息数据;
信息条目查找模块320,用于在物品信息列表中查找信息条目;
信息数据添加模块330,用于将查找成功的信息条目对应的信息数据添加到物品信息列表;在物品信息列表中添加查找失败的信息条目并将对应的信息数据添加到物品信息列表。
综上所述,在上述个模块的协同工作下,通过预设的信息提取策略从文本中获取物品信息的相关内容,再在物品信息列表中查找信息,将相关内容直接添加或新建信息条目后添加,实现了物品信息的大数据快速收集保存。
请参考图4,其是本发明一种从文本中提取物品信息的装置的第二实施例的结构方框图。如图所示,该装置包括:
文本内容读取模块310,用于读取文本中携带的文字内容,根据预设的信息提取策略从所述文字内容中提取物品的至少一个信息条目及对应的信息数据;
信息条目查找模块320,用于在物品信息列表中查找信息条目;
信息数据添加模块330,用于将查找成功的信息条目对应的信息数据添加到物品信息列表;在物品信息列表中添加查找失败的信息条目并将对应的信息数据添加到物品信息列表。
其中,所述物品为电子商务中的物品。
其中,所述信息条目包括物品的品牌、型号和价格。
其中,还包括:
信息数据删除模块340,用于当提取到的物品的品牌和型号与物品信息列表中的品牌和型号相同时,删除物品信息列表中的该品牌与型号对应的信息数据。
其中,所述信息条目还包括添加时间;
所述文本内容读取模块310,具体用于:
读取文本中携带的文字内容并记录读取的时间作为添加时间,根据预设的信息提取策略从所述文字内容中提取物品的至少一个信息条目及对应的信息数据。
综上所述,通过上述模块的协同工作,通过预设的信息提取策略从文本中获取物品信息的相关内容,再在物品信息列表中查找信息,将相关内容直接添加或新建信息条目后添加,实现了物品信息的大数据快速收集保存。同时,对物品信息的删除也能减少物品信息列表中的冗余数据。
以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理,而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。
Claims (10)
1.一种从文本中提取物品信息的方法,其特征在于,包括:
读取文本中携带的文字内容,根据预设的信息提取策略从所述文字内容中提取物品的至少一个信息条目及对应的信息数据;
在物品信息列表中查找信息条目;
将查找成功的信息条目对应的信息数据添加到物品信息列表;在物品信息列表中添加查找失败的信息条目并将对应的信息数据添加到物品信息列表。
2.根据权利要求1所述的一种从文本中提取物品信息的方法,其特征在于,所述物品为电子商务中的物品。
3.根据权利要求2所述的一种从文本中提取物品信息的方法,其特征在于,所述信息条目包括物品的品牌、型号和价格。
4.根据权利要求3所述的一种从文本中提取物品信息的方法,其特征在于,还包括:
当提取到的物品的品牌和型号与物品信息列表中的品牌和型号相同时,删除物品信息列表中的该品牌与型号对应的信息数据。
5.根据权利要求1所述的一种从文本中提取物品信息的方法,其特征在于,所述信息条目还包括添加时间;
所述读取文本中携带的文字内容,根据预设的信息提取策略从所述文字内容中提取物品的至少一个信息条目及对应的信息数据,具体为:
读取文本中携带的文字内容并记录读取的时间作为添加时间,根据预设的信息提取策略从所述文字内容中提取物品的至少一个信息条目及对应的信息数据。
6.一种从文本中提取物品信息的装置,其特征在于,包括:
文本内容读取模块,用于读取文本中携带的文字内容,根据预设的信息提取策略从所述文字内容中提取物品的至少一个信息条目及对应的信息数据;
信息条目查找模块,用于在物品信息列表中查找信息条目;
信息数据添加模块,用于将查找成功的信息条目对应的信息数据添加到物品信息列表;在物品信息列表中添加查找失败的信息条目并将对应的信息数据添加到物品信息列表。
7.根据权利要求6所述的一种从文本中提取物品信息的装置,其特征在于,所述物品为电子商务中的物品。
8.根据权利要求7所述的一种从文本中提取物品信息的装置,其特征在于,所述信息条目包括物品的品牌、型号和价格。
9.根据权利要求8所述的一种从文本中提取物品信息的装置,其特征在于,还包括:
信息数据删除模块,用于当提取到的物品的品牌和型号与物品信息列表中的品牌和型号相同时,删除物品信息列表中的该品牌与型号对应的信息数据。
10.根据权利要求6所述的一种从文本中提取物品信息的装置,其特征在于,所述信息条目还包括添加时间;
所述文本内容读取模块,具体用于:
读取文本中携带的文字内容并记录读取的时间作为添加时间,根据预设的信息提取策略从所述文字内容中提取物品的至少一个信息条目及对应的信息数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410687153.8A CN104375985A (zh) | 2014-11-25 | 2014-11-25 | 一种从文本中提取物品信息的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410687153.8A CN104375985A (zh) | 2014-11-25 | 2014-11-25 | 一种从文本中提取物品信息的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104375985A true CN104375985A (zh) | 2015-02-25 |
Family
ID=52554908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410687153.8A Pending CN104375985A (zh) | 2014-11-25 | 2014-11-25 | 一种从文本中提取物品信息的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104375985A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1890661A (zh) * | 2003-12-10 | 2007-01-03 | 咕果公司 | 信息提取方法及系统 |
CN101308507A (zh) * | 2008-06-06 | 2008-11-19 | 北京九城网络软件有限公司 | 互联网信息发布和搜索方法 |
CN101661594A (zh) * | 2008-08-28 | 2010-03-03 | 阿里巴巴集团控股有限公司 | 一种在互联网上提供对象信息的方法及系统 |
US20100235364A1 (en) * | 2004-01-07 | 2010-09-16 | Sony Corporation | Data display server, data display method and program thereof |
CN102222100A (zh) * | 2011-06-21 | 2011-10-19 | 青岛海信传媒网络技术有限公司 | 商品信息存取的方法及装置 |
CN102236850A (zh) * | 2010-04-21 | 2011-11-09 | 腾讯科技(深圳)有限公司 | 一种商品特征属性的显示方法及装置 |
-
2014
- 2014-11-25 CN CN201410687153.8A patent/CN104375985A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1890661A (zh) * | 2003-12-10 | 2007-01-03 | 咕果公司 | 信息提取方法及系统 |
US20100235364A1 (en) * | 2004-01-07 | 2010-09-16 | Sony Corporation | Data display server, data display method and program thereof |
CN101308507A (zh) * | 2008-06-06 | 2008-11-19 | 北京九城网络软件有限公司 | 互联网信息发布和搜索方法 |
CN101661594A (zh) * | 2008-08-28 | 2010-03-03 | 阿里巴巴集团控股有限公司 | 一种在互联网上提供对象信息的方法及系统 |
CN102236850A (zh) * | 2010-04-21 | 2011-11-09 | 腾讯科技(深圳)有限公司 | 一种商品特征属性的显示方法及装置 |
CN102222100A (zh) * | 2011-06-21 | 2011-10-19 | 青岛海信传媒网络技术有限公司 | 商品信息存取的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919625B (zh) | 一种互联网用户属性识别方法和装置 | |
US10134076B2 (en) | Method and system for attribute extraction from product titles using sequence labeling algorithms | |
CN104572863A (zh) | 一种产品推荐方法及系统 | |
CN103473230A (zh) | 服务范围确定方法、物流服务提供方推荐方法及相应装置 | |
US20180189359A1 (en) | Systems and Methods for Harvesting Data Associated with Fraudulent Content in a Networked Environment | |
CN104008186A (zh) | 从目标文本中确定关键词的方法和装置 | |
CN102314654A (zh) | 一种信息推送方法及信息推送服务器 | |
CN110012049B (zh) | 信息推送方法. 系统. 服务器及计算机可读存储介质 | |
US20150170248A1 (en) | Product and content association | |
CN105205686A (zh) | 一种获取产品价格信息的方法及系统 | |
CN104615721A (zh) | 用于基于退货关联信息推荐商品的方法和系统 | |
CN104462396A (zh) | 字符串处理方法和装置 | |
CN106649323B (zh) | 推荐关键词的方法及装置 | |
CN112749863A (zh) | 关键词的调价方法及装置、电子设备 | |
CN113327146A (zh) | 一种信息追踪方法和装置 | |
CN103399879B (zh) | 基于用户搜索日志的兴趣实体获得方法及装置 | |
CN107085573B (zh) | 热点信息的获取方法及装置 | |
CN105243144A (zh) | 一种兴趣标签的推荐方法及装置 | |
CN103377246A (zh) | 书签处理方法和终端浏览器 | |
CN105653540B (zh) | 文件属性信息的处理方法和装置 | |
CN104408097A (zh) | 一种基于字符段热更新的混合索引方法及系统 | |
CN107679908B (zh) | 销售人员话题辅助查询方法、电子装置及存储介质 | |
CN105279262A (zh) | 一种基于云计算的数据处理方法、系统及服务器 | |
CN104375985A (zh) | 一种从文本中提取物品信息的方法和装置 | |
CN111507788A (zh) | 数据推荐方法、装置、存储介质及处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150225 |
|
WD01 | Invention patent application deemed withdrawn after publication |