CN111611484B - 一种基于物品属性识别的股票推荐方法及系统 - Google Patents

一种基于物品属性识别的股票推荐方法及系统 Download PDF

Info

Publication number
CN111611484B
CN111611484B CN202010401159.XA CN202010401159A CN111611484B CN 111611484 B CN111611484 B CN 111611484B CN 202010401159 A CN202010401159 A CN 202010401159A CN 111611484 B CN111611484 B CN 111611484B
Authority
CN
China
Prior art keywords
information
stock
text
picture
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010401159.XA
Other languages
English (en)
Other versions
CN111611484A (zh
Inventor
王安全
刘雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Weibu Information Technology Co ltd
Original Assignee
Hunan Weibu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Weibu Information Technology Co ltd filed Critical Hunan Weibu Information Technology Co ltd
Priority to CN202010401159.XA priority Critical patent/CN111611484B/zh
Publication of CN111611484A publication Critical patent/CN111611484A/zh
Priority to US17/143,673 priority patent/US20210358042A1/en
Application granted granted Critical
Publication of CN111611484B publication Critical patent/CN111611484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Medical Informatics (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于物品属性识别的股票推荐方法及系统,该方法包括:接收通过扫描物品获取到的待识别图片,对待识别图片进行分类识别与文字提取并分别输出分类识别信息与文字提取信息,将分类识别信息与文字提取信息分别作为搜索条件在搜索引擎中进行搜索并输出对应的股票标的物信息,从股票标的物信息中筛选出与用户喜好相匹配的股票标的物信息并对用户进行推荐,通过本发明的实施,能够针对用户扫描图片中的物品的不同属性进行匹配,以发掘物品背后的意义,进而发掘出与物品相关的股票,并且能够根据用户的喜好推荐最符合用户口味的股票。

Description

一种基于物品属性识别的股票推荐方法及系统
技术领域
本发明涉及股票推荐技术领域,特别涉及一种基于物品属性识别的股票推荐方法及系统。
背景技术
当用户在日常生活中发现某件物品体验度较高时,会对该物品产生投资意向。为此,会触发用户通过搜索引擎或者其他媒体工具去搜索该物品背后的公司和相关行业等,然而这些信息可能不足以得到物品背后的股票和基金等信息,用户可能需要更多的检索才能获得这些信息。
现有技术中,针对与物品相关股票的搜索方式主要有以下两种:
1、使用通用搜索引擎搜索
使用物品名称、物品相关联的关键字,例如xxx行业,xxx公司等到搜索引擎上去搜索相关的信息,根据搜索结果获取到相关行业或公司的名称,然后基于上述搜索到的行业或公司列表继续使用搜索引擎进行搜索,直到发现背后的股票,从而发现投资机会。
2、使用股票软件搜索
将物品作为关键词进行搜索,例如使用苹果作为关键字搜索苹果公司,部分炒股软件开启了关键字联想功能,可能会搜索到用户可能想要搜索到的标的物;如果股票搜索没有成功,可能需要通过类似新闻搜索等工具去搜索可能的标的物,但是很多炒股软件并不提供此功能。
在现有的搜索方式中,无论是使用通用搜索引擎,抑或是文档检索,还是使用炒股软件的搜索功能,均不能很好的获得物体背后的投资机会。很多情况下需要复杂的检索操作才能得到想要的结果。还有很多情况下是无法获得结果的,例如很多炒股软件不提供模糊搜索功能,这表明单纯使用炒股软件去根据物品去获得可交易标的物是不现实的。且由于通用搜索引擎没有很好地知晓股票市场的上下文,所以根据搜索引擎搜索到的只会是跟关键字相关的公司和实体,这样就限制可能获得的标的物范围。
发明内容
发明目的:
为了克服背景技术中的缺点,本发明实施例提供了一种基于物品属性识别的股票推荐方法及系统,能够有效解决上述背景技术中涉及的问题。
技术方案:
一种基于物品属性识别的股票推荐方法,所述方法包括:
接收通过扫描物品获取到的待识别图片;
对所述待识别图片进行分类识别与文字提取并分别输出分类识别信息与文字提取信息,其中,所述分类识别信息包括与物品自身属性对应的企业识别信息、与物品延伸属性对应的企业识别信息以及与物品内部属性对应的企业识别信息,所述文字提取信息包括与文字对应的企业信息;
将所述分类识别信息与文字提取信息分别作为搜索条件在搜索引擎中进行搜索并输出对应的股票标的物信息,其中,所述搜索引擎由股票行情数据系统、行情数据导入模块、分布式爬虫以及ElasticSearch全文搜索引擎组成;
从所述股票标的物信息中筛选出与用户喜好相匹配的股票标的物信息并对用户进行推荐。
作为本发明的一种优选方式,对所述待识别图片进行分类识别与文字提取并分别输出分类识别信息与文字提取信息,包括:
将所述待识别图片输入至图片分类识别系统中进行识别并输出分类识别信息,其中,所述图片分类识别系统使用Tensorflow对预先训练的MobileNet分类识别模型进行训练,使用Horovod对预先训练的MobileNet分类识别模型进行分布式训练,并通过Kubeflow部署在Kubenetes平台上;
将所述待识别图片输入至图片OCR文本提取系统中进行文字提取并输出文字提取信息,其中,所述图片OCR文本提取系统使用LSTM神经网络对所述待识别图片进行文字识别,并通过Kubeflow部署在Kubenetes平台上。
作为本发明的一种优选方式,将所述分类识别信息与文字提取信息分别作为搜索条件在搜索引擎中进行搜索并输出对应的股票标的物信息,包括:
将所述分类识别信息与文字提取信息分别作为搜索条件在ElasticSearch全文搜索引擎中进行搜索并输出对应的股票标的物信息;
在将所述分类识别信息与文字提取信息分别作为搜索条件在搜索引擎中进行搜索并输出对应的股票标的物信息之前,所述方法还包括:
所述行情数据导入模块将所述股票行情数据系统中的非结构数据通过Flume导入到ElasticSearch全文搜索引擎中,将所述股票行情数据系统中的结构化数据通过Sqoop导入到ElasticSearch全文搜索引擎中;
所述分布式爬虫从互联网上爬取股票信息并导入到ElasticSearch全文搜索引擎中。
作为本发明的一种优选方式,在从所述股票标的物信息中筛选出与用户喜好相匹配的股票标的物信息并对用户进行推荐之前,所述方法还包括:
收集用户行为日志并将其导入至Hadoop大数据平台中;
使用Mahout协同过滤推荐算法或者DeepFM算法对所述用户行为日志进行分析与训练并将训练之后的结果保存在数据库中。
作为本发明的一种优选方式,从所述股票标的物信息中筛选出与用户喜好相匹配的股票标的物信息并对用户进行推荐,包括:
将所述股票标的物信息与所述数据库内的训练结果进行匹配,筛选得出与用户喜好相匹配的股票标的物信息并对用户进行推荐。
一种基于物品属性识别的股票推荐系统,所述系统包括:
待识别图片接收模块,用于接收通过扫描物品获取到的待识别图片;
分类识别模块,用于对所述待识别图片进行分类识别并输出分类识别信息,其中,所述分类识别信息包括与物品自身属性对应的企业识别信息、与物品延伸属性对应的企业识别信息以及与物品内部属性对应的企业识别信息;
文本提取模块,用于对所述待识别图片进行文字提取并输出文字提取信息,所述文字提取信息包括与文字对应的企业信息;
标的物搜索模块,用于将所述分类识别信息与文字提取信息分别作为搜索条件在搜索引擎中进行搜索并输出对应的股票标的物信息,其中,所述搜索引擎由股票行情数据系统、行情数据导入模块、分布式爬虫以及ElasticSearch全文搜索引擎组成;
标的物推荐模块,用于从所述股票标的物信息中筛选出与用户喜好相匹配的股票标的物信息并对用户进行推荐。
作为本发明的一种优选方式,所述分类识别模块进一步用于将所述待识别图片输入至图片分类识别系统中进行识别并输出分类识别信息,其中,所述图片分类识别系统使用Tensorflow对预先训练的MobileNet分类识别模型进行训练,使用Horovod对预先训练的MobileNet分类识别模型进行分布式训练,并通过Kubeflow部署在Kubenetes平台上;
文本提取模块进一步用于将所述待识别图片输入至图片OCR文本提取系统中进行文字提取并输出文字提取信息,其中,所述图片OCR文本提取系统使用LSTM神经网络对所述待识别图片进行文字识别,并通过Kubeflow部署在Kubenetes平台上。
作为本发明的一种优选方式,所述标的物搜索模块进一步用于将所述分类识别信息与文字提取信息分别作为搜索条件在ElasticSearch全文搜索引擎中进行搜索并输出对应的股票标的物信息;
其中,所述行情数据导入模块用于将所述股票行情数据系统中的非结构数据通过Flume导入到ElasticSearch全文搜索引擎中,将所述股票行情数据系统中的结构化数据通过Sqoop导入到ElasticSearch全文搜索引擎中;
所述分布式爬虫用于从互联网上爬取股票信息并导入到ElasticSearch全文搜索引擎中。
作为本发明的一种优选方式,所述系统还包括:
数据收集模块,用于收集用户行为日志并将其导入至Hadoop大数据平台中;
数据训练模块,用于使用Mahout协同过滤推荐算法或者DeepFM算法对所述用户行为日志进行分析与训练并将训练之后的结果保存在数据库中。
作为本发明的一种优选方式,所述标的物推荐模块进一步用于将所述股票标的物信息与所述数据库内的训练结果进行匹配,筛选得出与用户喜好相匹配的股票标的物信息并对用户进行推荐。
本发明实现以下有益效果:
1、本发明能够针对用户扫描图片中的物品的不同属性进行匹配,以发掘物品背后的意义,进而发掘出与物品相关的股票,并且能够根据用户的喜好推荐最符合用户口味的股票。
2、通过使用Tensorflow对预先训练的MobileNet分类识别模型进行训练,使用Horovod对预先训练的MobileNet分类识别模型进行分布式训练,既保证了识别的准确率,同时也保证了运行效率。
3、通过Kubeflow将图片分类识别系统部署在Kubenetes平台上,并通过Kubenetes统一资源调度CPU/GPU,能有效提高资源利用率与开发效率,并大大减少了运维成本,借助Kubeflow能便携和可扩展的部署机器学习。
4、通过使用Mahout协同过滤算法和基于深度学习的DeepFM算法进行离线计算,能很好的将用户行为进行映射和分类,从而很好的匹配到符合用户喜好的股票标的物信息。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。
图1为本发明其中一个实施例提供的一种基于物品属性识别的股票推荐方法流程示意图;
图2为本发明其中一个实施例提供的图片分类识别系统架构示意图;
图3为本发明其中一个实施例提供的图片ORC文本提取系统架构示意图;
图4为本发明其中一个实施例提供的搜索引擎架构示意图;
图5为本发明其中一个实施例提供的一种基于物品属性识别的股票推荐系统架构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例一
参考图1-4所示,本实施例提供一种基于物品属性识别的股票推荐方法,该方法可以由安装或设置在设备中的软件和/或硬件的方式实现,该软件可以是一种应用程序,例如是典型的APP;该设备可以是典型的计算机或移动终端等;所述方法包括以下步骤:
S1、接收通过扫描物品获取到的待识别图片。
在本实施例中,待识别图片可以是用户通过扫描物品获取到的图片,例如通过APP中的“扫一扫”功能启用摄像头对物品进行扫描以获取带有物品的图片,扫描成功后将接收该图片,并作为待识别图片。
本实施例中所描述的物品是指生活中存在的具有实体结构的物品,也可以是指在电子设备中显示的虚拟物品,本实施例主要针对的是前者,但并不代表后者不适用于本发明。
S2、对所述待识别图片进行分类识别与文字提取并分别输出分类识别信息与文字提取信息,其中,所述分类识别信息包括与物品自身属性对应的企业识别信息、与物品延伸属性对应的企业识别信息以及与物品内部属性对应的企业识别信息,所述文字提取信息包括与文字对应的企业信息。
在本实施例中,接收到待识别图片后,将对待识别图片进行分类识别与文字提取,具体将待识别图片输入至图片分类识别系统中进行分类识别,将待识别图片输入至图片OCR文本提取系统中进行文字识别并提取识别出的文字,在分类识别结束后输出分类识别信息,在文字识别结束后输出文字提取信息;图片分类识别与文字提取是同时进行的,如果待识别图片中不存在文字,则图片OCR文本提取系统将不输出文字提取信息。
其中,所述图片分类识别系统使用Tensorflow对预先训练的MobileNet分类识别模型进行训练,使用Horovod对预先训练的MobileNet分类识别模型进行分布式训练,并通过Kubeflow部署在Kubenetes平台上。
Tensorflow是一个基于数据流编程(dataflowprogramming)的符号数学系统,应用于各类机器学习(machinelearning)算法的编程实现;Tensorflow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算;MobileNet是一类卷积神经网络,兼顾了速度和准确率,能在保证识别准确率不损失太多的情况下,保持网络和参数的的小巧;Horovod是一个深度学习工具,可为用户实现分布式训练提供帮助;Kubeflow是一种机器学习工具包,是运行在K8S之上的一套技术栈,包含很多组件,可以配合起来用,也可以单独用其中的一部分,其以TensorFlow作为第一个支持的框架,在Kubernetes平台上定义了一个新的资源类型:TFJob,即TensorFlowJob的缩写,通过这样一个资源类型,使用TensorFlow进行机器学习训练的工程师们不再需要编写繁杂的配置,只需要按照他们对业务的理解,确定PS与worker的个数以及数据与日志的输入输出,就可以进行一次训练任务:kubeflow是一个为Kubernetes构建的可组合,便携式,可扩展的机器学习技术栈。
通过Kubenetes平台统一资源调度CPU/GPU,使得系统能享受到Kubernetes的便利和高;Kubernetes平台使得部署容器化的应用简单并且高效,借助Kubeflow能便携和可扩展的部署机器学习。
其中,图片分类识别系统不仅能识别物品的自身属性(指跟物品同音或者同义的匹配),还可以识别物品的延伸属性(指跟物品关联的生产公司、所属品类进行匹配),以及识别物品的内部属性(指跟物品内部的物品进行匹配)。
例如,待识别图片中显示的物品是“苹果”(水果),则图片分类识别系统识别出与该物品的自身属性对应的企业识别信息可以是“苹果”(苹果公司),或者公司字号、经营范围任一项包括种植苹果、制作苹果汁、制作含有苹果汁的果汁、制作含有苹果汁的食品、生产苹果干、种植水果、销售水果、处理苹果果核果皮、提取苹果中某种特殊成分、生产苹果形状玩具、生产苹果形状玩偶、生产苹果形状装饰物的公司。
待识别图片中显示的物品是“手机”(电子设备),则图片分类识别系统识别出与该物品的延伸属性对应的企业识别信息可以是与“手机”相关的制造商,例如苹果、小米、三星、华为等(以上公司为简称),或者手机销售代理商,或者公司字号、经营范围任一项包括生产、销售手机零部件、手机壳、手机吊饰、手机周边产品的公司。
待识别图片中显示的物品是“汽车”(交通工具),则图片分类识别系统识别出与该物品的内部属性对应的企业识别信息可以是与汽车内部配件(例如发动机、电动机、电池等)相关的制造商,例如宝马、本田、宁德时代等(以上公司为简称),或者汽车销售代理商,或者公司字号、经营范围任一项包括生产、销售汽车零部件、汽车漆、汽车膜、汽车模型、汽车装饰品、汽车周边产品的公司。
其中,所述图片OCR文本提取系统使用LSTM神经网络对所述待识别图片进行文字识别,并通过Kubeflow部署在Kubenetes平台上。
LSTM神经网络即长短期记忆网络(LSTM,LongShort-TermMemory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。
图片OCR文本提取系统使用LSTM神经网络对待识别图片进行文字识别,具体即识别待识别图片中显示的文字以获取与其对应的企业信息。
例如,待识别图片中显示的文字涵盖有“苹果”,则图片OCR文本提取系统识别出与该文字对应的企业信息可以是“苹果”(苹果公司)。
S3、将所述分类识别信息与文字提取信息分别作为搜索条件在搜索引擎中进行搜索并输出对应的股票标的物信息,其中,所述搜索引擎由股票行情数据系统、行情数据导入模块、分布式爬虫以及ElasticSearch全文搜索引擎组成。
在本实施例中,在执行S3之前,还需进行以下实施过程:
所行情数据导入模块将所述股票行情数据系统中的非结构数据通过Flume导入到ElasticSearch全文搜索引擎中,将所述股票行情数据系统中的结构化数据通过Sqoop导入到ElasticSearch全文搜索引擎中;所述分布式爬虫从互联网(例如财经网站、社交网站等)上爬取股票信息并导入到ElasticSearch全文搜索引擎中。
Flume(日志收集系统)提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力;Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIXtail)、syslog(syslog日志系统),支持TCP和UDP等2种模式,exec(命令执行)等数据源上收集数据的能力;Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中;Elasticsearch是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTfulweb接口。
本实施例中,S3的具体实施方式为:将所述分类识别信息与文字提取信息分别作为搜索条件在ElasticSearch全文搜索引擎中进行搜索并输出对应的股票标的物信息。
例如,当分类识别信息是“苹果”时,搜索并输出对应的股票标的物信息则是“苹果公司”对应的股票标的物信息;当分类识别信息是与“手机”相关的制造商时,搜索并输出对应的股票标的物信息则是与“手机”相关的制造商对应的股票标的物信息,例如苹果、小米、三星、华为等公司对应的股票标的物信息。
S4、从所述股票标的物信息中筛选出与用户喜好相匹配的股票标的物信息并对用户进行推荐。
在本实施例中,在执行S4之前,还需进行以下实施过程:
收集用户行为日志并将其导入至Hadoop大数据平台中;使用Mahout协同过滤推荐算法或者DeepFM算法对所述用户行为日志进行分析与训练并将训练之后的结果保存在数据库中。
在本实施例中,S4的具体实施方式为:将所述股票标的物信息与所述数据库内的训练结果进行匹配,筛选得出与用户喜好相匹配的股票标的物信息并对用户进行推荐。
具体的,当用户访问网站或APP的页面时,用户行为日志采集脚本文件和脚本代码收集用户行为日志,并将其重组成指定规格的用户行为日志数据包,通过预定的协议(例如HTTP协议)进行发送,具体将其发送并导入至Hadoop大数据平台中,然后再通过Mahout协同过滤推荐算法或者DeepFM算法对所述用户行为日志进行分析与训练并将训练之后的结果保存在数据库中。
使用Mahout协同过滤算法(通过用户的历史行为数据发现用户对商品或内容的喜欢)和基于深度学习的DeepFM算法(通过用户的历史数据训练推荐模型来推荐内容)进行离线计算,能很好的将用户行为进行映射和分类,从而很好的匹配到符合用户喜好的股票标的物信息。
在实际应用中,可根据需要在上述两种算法种进行切换以达到不同的效果。
需要说明的是,如果在将所述股票标的物信息与所述数据库内的训练结果进行匹配时,无法获取对应的匹配结果时(即所有的股票标的物信息均与用户喜好不匹配),则将匹配前的股票标的物信息对用户进行推荐。
实施例二
参考图2-5所示,本实施例提供一种基于物品属性识别的股票推荐系统,所述系统包括:
待识别图片接收模块,用于接收通过扫描物品获取到的待识别图片。
分类识别模块,用于对所述待识别图片进行分类识别并输出分类识别信息,其中,所述分类识别信息包括与物品自身属性对应的企业识别信息、与物品延伸属性对应的企业识别信息以及与物品内部属性对应的企业识别信息。
文本提取模块,用于对所述待识别图片进行文字提取并输出文字提取信息,所述文字提取信息包括与文字对应的企业信息。
标的物搜索模块,用于将所述分类识别信息与文字提取信息分别作为搜索条件在搜索引擎中进行搜索并输出对应的股票标的物信息,其中,所述搜索引擎由股票行情数据系统、行情数据导入模块、分布式爬虫以及ElasticSearch全文搜索引擎组成。
标的物推荐模块,用于从所述股票标的物信息中筛选出与用户喜好相匹配的股票标的物信息并对用户进行推荐。
作为本发明的一种优选方式,所述分类识别模块进一步用于将所述待识别图片输入至图片分类识别系统中进行识别并输出分类识别信息,其中,所述图片分类识别系统使用Tensorflow对预先训练的MobileNet分类识别模型进行训练,使用Horovod对预先训练的MobileNet分类识别模型进行分布式训练,并通过Kubeflow部署在Kubenetes平台上。
文本提取模块进一步用于将所述待识别图片输入至图片OCR文本提取系统中进行文字提取并输出文字提取信息,其中,所述图片OCR文本提取系统使用LSTM神经网络对所述待识别图片进行文字识别,并通过Kubeflow部署在Kubenetes平台上。
作为本发明的一种优选方式,所述标的物搜索模块进一步用于将所述分类识别信息与文字提取信息分别作为搜索条件在ElasticSearch全文搜索引擎中进行搜索并输出对应的股票标的物信息。
其中,所述行情数据导入模块用于将所述股票行情数据系统中的非结构数据通过Flume导入到ElasticSearch全文搜索引擎中,将所述股票行情数据系统中的结构化数据通过Sqoop导入到ElasticSearch全文搜索引擎中。
所述分布式爬虫用于从互联网上爬取股票信息并导入到ElasticSearch全文搜索引擎中。
作为本发明的一种优选方式,所述系统还包括:
数据收集模块,用于收集用户行为日志并将其导入至Hadoop大数据平台中。
数据训练模块,用于使用Mahout协同过滤推荐算法或者DeepFM算法对所述用户行为日志进行分析与训练并将训练之后的结果保存在数据库中。
作为本发明的一种优选方式,所述标的物推荐模块进一步用于将所述股票标的物信息与所述数据库内的训练结果进行匹配,筛选得出与用户喜好相匹配的股票标的物信息并对用户进行推荐。
本实施例的具体实施过程与实施例一一致,具体参考上述内容。
上述实施例只为说明本发明的技术构思及特点,其目的是让熟悉该技术领域的技术人员能够了解本发明的内容并据以实施,并不能以此来限制本发明的保护范围。凡根据本发明精神实质所作出的等同变换或修饰,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种基于物品属性识别的股票推荐方法,其特征在于,所述方法包括:
接收通过扫描物品获取到的待识别图片;
对所述待识别图片进行分类识别与文字提取并分别输出分类识别信息与文字提取信息,其中,所述分类识别信息包括与物品自身属性对应的企业识别信息、与物品延伸属性对应的企业识别信息以及与物品内部属性对应的企业识别信息,所述文字提取信息包括与文字对应的企业信息;
将所述分类识别信息与文字提取信息分别作为搜索条件在搜索引擎中进行搜索并输出对应的股票标的物信息,其中,所述搜索引擎由股票行情数据系统、行情数据导入模块、分布式爬虫以及ElasticSearch全文搜索引擎组成;
从所述股票标的物信息中筛选出与用户喜好相匹配的股票标的物信息并对用户进行推荐;
其中,对所述待识别图片进行分类识别与文字提取并分别输出分类识别信息与文字提取信息,包括:
将所述待识别图片输入至图片分类识别系统中进行识别并输出分类识别信息,其中,所述图片分类识别系统使用Tensorflow对预先训练的MobileNet分类识别模型进行训练,使用Horovod对预先训练的MobileNet分类识别模型进行分布式训练,并通过Kubeflow部署在Kubenetes平台上;
将所述待识别图片输入至图片OCR文本提取系统中进行文字提取并输出文字提取信息,其中,所述图片OCR文本提取系统使用LSTM神经网络对所述待识别图片进行文字识别,并通过Kubeflow部署在Kubenetes平台上;
其中,将所述分类识别信息与文字提取信息分别作为搜索条件在搜索引擎中进行搜索并输出对应的股票标的物信息,包括:
将所述分类识别信息与文字提取信息分别作为搜索条件在ElasticSearch全文搜索引擎中进行搜索并输出对应的股票标的物信息;
在将所述分类识别信息与文字提取信息分别作为搜索条件在搜索引擎中进行搜索并输出对应的股票标的物信息之前,所述方法还包括:
所述行情数据导入模块将所述股票行情数据系统中的非结构数据通过Flume导入到ElasticSearch全文搜索引擎中,将所述股票行情数据系统中的结构化数据通过Sqoop导入到ElasticSearch全文搜索引擎中;
所述分布式爬虫从互联网上爬取股票信息并导入到ElasticSearch全文搜索引擎中。
2.根据权利要求1所述的一种基于物品属性识别的股票推荐方法,其特征在于,在从所述股票标的物信息中筛选出与用户喜好相匹配的股票标的物信息并对用户进行推荐之前,所述方法还包括:
收集用户行为日志并将其导入至Hadoop大数据平台中;
使用Mahout协同过滤推荐算法或者DeepFM算法对所述用户行为日志进行分析与训练并将训练之后的结果保存在数据库中。
3.根据权利要求2所述的一种基于物品属性识别的股票推荐方法,其特征在于,从所述股票标的物信息中筛选出与用户喜好相匹配的股票标的物信息并对用户进行推荐,包括:
将所述股票标的物信息与所述数据库内的训练结果进行匹配,筛选得出与用户喜好相匹配的股票标的物信息并对用户进行推荐。
4.一种基于物品属性识别的股票推荐系统,其特征在于,所述系统包括:
待识别图片接收模块,用于接收通过扫描物品获取到的待识别图片;
分类识别模块,用于对所述待识别图片进行分类识别并输出分类识别信息,其中,所述分类识别信息包括与物品自身属性对应的企业识别信息、与物品延伸属性对应的企业识别信息以及与物品内部属性对应的企业识别信息;
文本提取模块,用于对所述待识别图片进行文字提取并输出文字提取信息,所述文字提取信息包括与文字对应的企业信息;
标的物搜索模块,用于将所述分类识别信息与文字提取信息分别作为搜索条件在搜索引擎中进行搜索并输出对应的股票标的物信息,其中,所述搜索引擎由股票行情数据系统、行情数据导入模块、分布式爬虫以及ElasticSearch全文搜索引擎组成;
标的物推荐模块,用于从所述股票标的物信息中筛选出与用户喜好相匹配的股票标的物信息并对用户进行推荐;
其中,所述分类识别模块进一步用于将所述待识别图片输入至图片分类识别系统中进行识别并输出分类识别信息,其中,所述图片分类识别系统使用Tensorflow对预先训练的MobileNet分类识别模型进行训练,使用Horovod对预先训练的MobileNet分类识别模型进行分布式训练,并通过Kubeflow部署在Kubenetes平台上;
文本提取模块进一步用于将所述待识别图片输入至图片OCR文本提取系统中进行文字提取并输出文字提取信息,其中,所述图片OCR文本提取系统使用LSTM神经网络对所述待识别图片进行文字识别,并通过Kubeflow部署在Kubenetes平台上;
其中,所述标的物搜索模块进一步用于将所述分类识别信息与文字提取信息分别作为搜索条件在ElasticSearch全文搜索引擎中进行搜索并输出对应的股票标的物信息;
其中,所述行情数据导入模块用于将所述股票行情数据系统中的非结构数据通过Flume导入到ElasticSearch全文搜索引擎中,将所述股票行情数据系统中的结构化数据通过Sqoop导入到ElasticSearch全文搜索引擎中;
所述分布式爬虫用于从互联网上爬取股票信息并导入到ElasticSearch全文搜索引擎中。
5.根据权利要求4所述的一种基于物品属性识别的股票推荐系统,其特征在于,所述系统还包括:
数据收集模块,用于收集用户行为日志并将其导入至Hadoop大数据平台中;
数据训练模块,用于使用Mahout协同过滤推荐算法或者DeepFM算法对所述用户行为日志进行分析与训练并将训练之后的结果保存在数据库中。
6.根据权利要求5所述的一种基于物品属性识别的股票推荐系统,其特征在于,所述标的物推荐模块进一步用于将所述股票标的物信息与所述数据库内的训练结果进行匹配,筛选得出与用户喜好相匹配的股票标的物信息并对用户进行推荐。
CN202010401159.XA 2020-05-13 2020-05-13 一种基于物品属性识别的股票推荐方法及系统 Active CN111611484B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010401159.XA CN111611484B (zh) 2020-05-13 2020-05-13 一种基于物品属性识别的股票推荐方法及系统
US17/143,673 US20210358042A1 (en) 2020-05-13 2021-01-07 Stock recommendation method based on item attribute identification and the system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010401159.XA CN111611484B (zh) 2020-05-13 2020-05-13 一种基于物品属性识别的股票推荐方法及系统

Publications (2)

Publication Number Publication Date
CN111611484A CN111611484A (zh) 2020-09-01
CN111611484B true CN111611484B (zh) 2023-08-11

Family

ID=72204787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010401159.XA Active CN111611484B (zh) 2020-05-13 2020-05-13 一种基于物品属性识别的股票推荐方法及系统

Country Status (2)

Country Link
US (1) US20210358042A1 (zh)
CN (1) CN111611484B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11887332B2 (en) * 2021-06-29 2024-01-30 7-Eleven, Inc. Item identification using digital image processing
CN115545853B (zh) * 2022-12-02 2023-06-23 云筑信息科技(成都)有限公司 一种寻找供应商的搜索方法
CN116302260B (zh) * 2023-02-27 2024-02-13 浙江同花顺智能科技有限公司 一种数字虚拟人引导用户在线进行股票开户方法和系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001031481A2 (en) * 1999-10-22 2001-05-03 Interactivefunds.Com, Inc. Interactive portfolio management system
EP1605348A2 (en) * 2004-06-10 2005-12-14 Canon Kabushiki Kaisha Image processing apparatus control method therefor and program
CN102214217A (zh) * 2011-06-07 2011-10-12 南京联慧通信技术有限公司 手机股票应用信息智能搜索方法
CN103886074A (zh) * 2014-03-24 2014-06-25 江苏名通信息科技有限公司 基于社交媒体的商品推荐系统
JP2014182701A (ja) * 2013-03-21 2014-09-29 Nomura Securities Co Ltd 株式銘柄推薦装置、株式銘柄推薦方法、プログラム、および株式銘柄推薦システム
KR20160103776A (ko) * 2015-02-25 2016-09-02 오름스톡 주식회사 추천종목 서비스 시스템 및 이를 이용한 추천종목 서비스 방법
CN106844488A (zh) * 2016-12-23 2017-06-13 北京奇虎科技有限公司 结合搜索的股票类ugc数据推荐方法及装置
CN107122450A (zh) * 2017-04-26 2017-09-01 广州图匠数据科技有限公司 一种网络图片舆情监测方法
CN107424072A (zh) * 2017-04-18 2017-12-01 湖南福米信息科技有限责任公司 高速分布式股票实时行情推送系统及方法
CN107481143A (zh) * 2017-07-28 2017-12-15 武汉楚鼎信息技术有限公司 一种智能股票推荐系统以及实现方法
CN108074182A (zh) * 2017-12-04 2018-05-25 上海财经大学 一种基于搜索次数的股票筛选推荐系统
CN109035025A (zh) * 2018-08-17 2018-12-18 北京奇虎科技有限公司 评价股票评论可靠性的方法和装置
US10395772B1 (en) * 2018-10-17 2019-08-27 Tempus Labs Mobile supplementation, extraction, and analysis of health records
CN110765348A (zh) * 2019-09-17 2020-02-07 五八有限公司 一种热词的推荐方法、装置、电子设备及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10303999B2 (en) * 2011-02-22 2019-05-28 Refinitiv Us Organization Llc Machine learning-based relationship association and related discovery and search engines
US20130218914A1 (en) * 2012-02-20 2013-08-22 Xerox Corporation System and method for providing recommendations based on information extracted from reviewers' comments
JP6290535B2 (ja) * 2012-08-02 2018-03-07 Jcc株式会社 映像情報分析システム
US20150278969A1 (en) * 2014-03-26 2015-10-01 Xerox Corporation Integrated automated solution for the management of services for the disabled and others
EP3149690A4 (en) * 2014-05-24 2017-11-01 Companybook AS Method and system for collecting, transforming, storing, and presentation of data from multiple data sources.
US20160005126A1 (en) * 2014-07-03 2016-01-07 Mastercard International Incorporated System and method for investment portfolio recommendations based on purchasing and retail location
US20160012537A1 (en) * 2014-07-11 2016-01-14 Albert Charles Hardin Automated transformation of object identification into executable investment
JP6450473B2 (ja) * 2015-11-27 2019-01-09 株式会社イーシーバード 商品/サービスの購入支援方法及びシステム並びにプログラム
CN106528764B (zh) * 2016-10-28 2019-11-08 北京百度网讯科技有限公司 基于人工智能的提问型检索词的检索方法及装置
CN108121737B (zh) * 2016-11-29 2022-04-26 阿里巴巴集团控股有限公司 一种业务对象属性标识的生成方法、装置和系统
CN110097454A (zh) * 2019-04-03 2019-08-06 平安科技(深圳)有限公司 处理线上数据的方法及相关产品
US11705226B2 (en) * 2019-09-19 2023-07-18 Tempus Labs, Inc. Data based cancer research and treatment systems and methods
CN110728541B (zh) * 2019-10-11 2024-01-23 广州市丰申网络科技有限公司 信息流媒体广告创意推荐方法及装置
JP2021145229A (ja) * 2020-03-11 2021-09-24 富士フイルムビジネスイノベーション株式会社 画像処理装置及びプログラム

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001031481A2 (en) * 1999-10-22 2001-05-03 Interactivefunds.Com, Inc. Interactive portfolio management system
EP1605348A2 (en) * 2004-06-10 2005-12-14 Canon Kabushiki Kaisha Image processing apparatus control method therefor and program
CN102214217A (zh) * 2011-06-07 2011-10-12 南京联慧通信技术有限公司 手机股票应用信息智能搜索方法
JP2014182701A (ja) * 2013-03-21 2014-09-29 Nomura Securities Co Ltd 株式銘柄推薦装置、株式銘柄推薦方法、プログラム、および株式銘柄推薦システム
CN103886074A (zh) * 2014-03-24 2014-06-25 江苏名通信息科技有限公司 基于社交媒体的商品推荐系统
KR20160103776A (ko) * 2015-02-25 2016-09-02 오름스톡 주식회사 추천종목 서비스 시스템 및 이를 이용한 추천종목 서비스 방법
CN106844488A (zh) * 2016-12-23 2017-06-13 北京奇虎科技有限公司 结合搜索的股票类ugc数据推荐方法及装置
CN107424072A (zh) * 2017-04-18 2017-12-01 湖南福米信息科技有限责任公司 高速分布式股票实时行情推送系统及方法
CN107122450A (zh) * 2017-04-26 2017-09-01 广州图匠数据科技有限公司 一种网络图片舆情监测方法
CN107481143A (zh) * 2017-07-28 2017-12-15 武汉楚鼎信息技术有限公司 一种智能股票推荐系统以及实现方法
CN108074182A (zh) * 2017-12-04 2018-05-25 上海财经大学 一种基于搜索次数的股票筛选推荐系统
CN109035025A (zh) * 2018-08-17 2018-12-18 北京奇虎科技有限公司 评价股票评论可靠性的方法和装置
US10395772B1 (en) * 2018-10-17 2019-08-27 Tempus Labs Mobile supplementation, extraction, and analysis of health records
CN110765348A (zh) * 2019-09-17 2020-02-07 五八有限公司 一种热词的推荐方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111611484A (zh) 2020-09-01
US20210358042A1 (en) 2021-11-18

Similar Documents

Publication Publication Date Title
CN111611484B (zh) 一种基于物品属性识别的股票推荐方法及系统
Garimella et al. Quantifying controversy on social media
CN105808685B (zh) 推广信息的推送方法及装置
US20210097089A1 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
CN110275935A (zh) 政策信息的处理方法、装置、及存储介质、电子装置
EP3089055A1 (en) Method and device for displaying information flows in social network, and server
US20120191694A1 (en) Generation of topic-based language models for an app search engine
US20120198056A1 (en) Techniques for Analyzing Website Content
US11561988B2 (en) Systems and methods for harvesting data associated with fraudulent content in a networked environment
CN105677931A (zh) 信息搜索方法和装置
US9305226B1 (en) Semantic boosting rules for improving text recognition
US11157540B2 (en) Search space reduction for knowledge graph querying and interactions
CN103034680A (zh) 针对终端设备的数据交互方法及装置
CN112380457A (zh) 一种基于采购信息的精准个性化推荐方法
CN110737811A (zh) 应用分类方法、装置以及相关设备
CN112069315A (zh) 提取文本多维度信息方法、装置、服务器及存储介质
CN112307314A (zh) 搜索引擎精选摘要的生成方法和装置
CN107612707B (zh) 面向行业领域的同源样本数据分类存储的预处理方法及系统
CN109829033B (zh) 数据展示方法和终端设备
Magara et al. Toward altmetric-driven research-paper recommender system framework
CN104765747A (zh) 网页处理方法及装置
CN110990701A (zh) 书籍搜索方法、计算设备及计算机存储介质
US20220027419A1 (en) Smart search and recommendation method for content, storage medium, and terminal
CN112231434A (zh) 一种信息自动分发方法及系统、存储介质及终端
WO2021213339A1 (en) Method and system for extracting and storing image metadata

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230710

Address after: 410000 Room 301, floor 3, building 6, Xiangjiang fund Town, No. 188 Binjiang Road, guanshaling street, Yuelu District, Changsha City, Hunan Province

Applicant after: Hunan Weibu Information Technology Co.,Ltd.

Address before: Room 501, Building 3, Core City Science Park, No. 588, Yuelu West Avenue, Changsha High tech Development Zone, Hunan 410205

Applicant before: HUNAN FUMI INFORMATION TECHNOLOGY CO.,LTD.

GR01 Patent grant
GR01 Patent grant