CN113490959A - 数字图像转录和操纵 - Google Patents

数字图像转录和操纵 Download PDF

Info

Publication number
CN113490959A
CN113490959A CN201980085581.4A CN201980085581A CN113490959A CN 113490959 A CN113490959 A CN 113490959A CN 201980085581 A CN201980085581 A CN 201980085581A CN 113490959 A CN113490959 A CN 113490959A
Authority
CN
China
Prior art keywords
digital
text data
digital image
text
electronic message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980085581.4A
Other languages
English (en)
Inventor
周天聪
谢勇
H·邱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN113490959A publication Critical patent/CN113490959A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本文公开了一种被配置为执行数字图像处理的计算机服务器。在一个实施例中,当接收到转录命令时,计算机服务器基于数字图像中的模式执行文本识别以生成与数字图像相对应的数字文本数据。然后,计算机服务器可以基于导入的数字图像来确定数字文本数据的内容格式,并将所确定的内容格式自动应用于生成的数字文本数据。然后,可以将数字数据插入到电子消息中,并与所插入的排版的数字文本数据一起发送到目的地。

Description

数字图像转录和操纵
背景技术
在白板上书写是在会议参与者之间交流想法的有效方式。例如,会议参与者可以使用记号笔写下动作项目,绘制示意图或以书面形式减少其它合适的信息。虽然物理白板已经使用了很长时间,但如今也适用交互式白板。例如,交互式白板可以包括具有大触摸屏的计算机。设备驱动器通常安装在计算机上,从而交互式白板可以充当人工输入设备(HID)。在一个应用中,交互式白板可以经由例如触摸屏接收输入,并将接收到的输入在触摸屏上作为图像显示。
发明内容
提供本发明内容来以简化形式介绍在下面的具体实施方式中进一步描述的一系列概念。本发明内容不旨在识别要求保护的主题的关键特征或必要特征,也不旨在用于限制要求保护的主题的范围。
虽然白板讨论可以是开发策略,解决问题,解释设计细节等的有效方法,但是这些讨论的摘要或会议笔记可能难以以电子方式作为文本转录件进行传播。例如,在白板会议期间,会议参与者可以将动作项目的笔记手写为具有多个项目符号的列表。可以使用相机或交互式白板的功能来捕获具有项目符号的笔记的数字图像。然后可以将笔记的图像附到电子邮件并传输给会议参与者。然而,为了将捕获的图像中的笔记转换为文本的项目符号或其它合适形式的数字数据,会议参与者之一(或另一人)必须手动键入笔记,并根据捕获的图像将键入的笔记格式化为项目符号。这种手动转录可能很麻烦且效率低下,因此会对会议参与者的生产率产生负面影响。此外,手动转录也容易出现人为错误。
所公开的技术的若干实施例可以通过基于会议笔记的图像实现会议笔记的自动转录以用于电子传播来解决上述困难中的至少一些。在一种实现方式中,可以经由相机或交互式白板的功能从白板上捕获会议笔记的数字图像。然后,用户可以开始在例如电子邮件客户端中的客户端设备上撰写关于会议的新电子邮件(或其它合适类型的电子消息)。电子邮件客户端可以是客户端设备上的独立应用,也可以是在网络浏览器中执行的基于网络的应用。电子邮件可以是超文本标记语言(HTML)、可扩展标记语言(XML)或其它合适类型的格式。
然后,用户可以使用电子邮件客户端中的功能将捕获的会议笔记的数字图像导入正在撰写的电子邮件的电子邮件正文中。在一个示例中,数字图像可以作为内嵌图片粘贴或插入到电子邮件正文中。在另一示例中,数字图像可以作为附件附到电子邮件。在其它示例中,用户可以经由其它合适的技术将数字图像导入到电子邮件中。在电子邮件撰写期间,电子邮件客户端中的内容可以经由计算机网络与对应电子邮件服务器中的内容同步。因此,在导入数字图像之后,电子邮件服务器也可以经由与电子邮件客户端同步来包含导入的数字图像的副本。
然后,用户可以提供转录命令以将导入的数字图像转换为文本格式的文件或数据。文本文件可以包含字符流,包括可能的控制字符,并且可以以各种字符编码方案之一进行编码,例如HTML、XML等。在一个实施例中,用户可以启动电子邮件客户端上的用户界面元素(例如,按钮)以提供命令。在其它实施例中,用户可以启动热键、功能键或其它合适的输入以提供命令。在其它实施例中,电子邮件客户端可以被配置为自动检测导入的数字图像并询问用户以确认自动转录数字图像。在接收到命令时,电子邮件客户端和/或对应的电子邮件服务器可以将导入的数字图像连同其它合适的信息(例如,针对转录的请求、电子邮件的电子邮件标识、用户的认证凭证等)一起传输到文本识别器以执行文本识别。
文本识别器可以被配置为执行模式识别以识别数字图像中的文本。在一个实施例中,文本识别器可以托管在例如数据中心中的远程服务器上。在其它实施例中,文本识别器可以托管在电子邮件服务器、客户端设备或其它合适类型的计算环境中。在某些实现方式中,文本识别器可以被配置为基于模式模型的集合来执行模式识别,该模式模型的集合是通过使用被配置为“学习”或通过学习已知示例逐步提高任务的性能的“神经网络”或“人工神经网络”分析其中具有标识出的文本的数字图像的集合而开发的。在某些实现方式中,神经网络可以包括通常称为“神经元”或“人工神经元”的多层对象。每个神经元可以被配置为基于经由对应连接的一个或多个输入来执行诸如非线性激活函数之类的函数。人工神经元和连接通常具有随着学习的进行而调整的贡献值。贡献值增加或减少连接处的输入的强度。通常,人工神经元是分层组织的。不同的层可以对相应的输入执行不同种类的变换。信号通常从输入层可能在遍历一个或多个中间层之后行进到输出层。因此,通过使用神经网络,文本识别器可以提供模式模型的集合,文本识别器可以使用该模式模型的集合来识别接收到的数字图像中的文本。在其它实现方式中,文本识别器可以被配置为基于用户提供的规则或经由其它合适的技术来执行模式识别。
在完成识别接收到的数字图像中的文本时,文本识别器还可以被配置为识别包含于数字图像中的内容结构或格式。示例内容结构可以包括具有项目符号的列表、表格、段落等。在某些实施例中,此类内容结构的识别可以基于触发词或关键字(例如,“1”、“2”、“3”等),标点符号(例如,项目符号、空格等),内容外观(例如,粗体、斜体、下划线等),或在使用例如神经网络开发的结构模型中指定的识别的文本的其它特性。在其它实施例中,内容结构的识别可以基于识别的文本的相对位置、相对大小或其它简档。在其它实施例中,内容结构的识别可以基于上述技术的组合中的任一种。
在识别内容结构时,文本识别器可以被配置为将内容结构自动应用于识别的文本以导出对应于数字图像的排版的文本。例如,文本识别器可以被配置为将识别的文本格式化为列,并在该列中的每个条目前面插入项目符号或数字。在另一示例中,文本识别器可以被配置为将识别的文本格式化为表格、列、段落或其它合适类型的格式。
然后,文本识别器可以被配置为向电子邮件服务器提供表示排版的文本的数据。然后,除了或代替会议笔记的导入的数字图像,电子邮件服务器和/或客户端设备上的电子邮件客户端可以自动地将接收到的数据显现在正在撰写的电子邮件的正文中。然后,用户可以选择性地修改显现的文本,重新格式化显现的文本,或执行其它合适的操作。在从用户接收到发送电子邮件的命令时,电子邮件客户端和电子邮件服务器可以合作以将电子邮件的副本传输到目标目的地。
所公开技术的若干实施例因此可以在很少或没有用户干预的情况下高效地将手写笔记转录成数字文本数据。与用户从数字图像中手动键入会议记录不同,用户的单击可以使数字图像在撰写期间被自动转录成数字文本数据并插入到电子邮件的正文中。通过消除转录期间的人为错误,所公开的技术的若干实施例还可以比手动键入会议笔记更准确。因此,与会议笔记的手动转录相比,可以提高会议参与者的生产率。
附图说明
图1A-1D是示出根据所公开的技术的实施例的在操作的某些阶段期间实现数字图像转录和操纵的计算系统的示意图。
图2是示出根据所公开的技术的实施例的图1的计算系统的某些硬件/软件组件的示意图。
图3A-3C是示出根据所公开的技术的实施例的数字图像转录和操纵的示例过程的流程图。
图4是适合于图1中的计算系统的某些组件的计算设备。
具体实施方式
下面描述用于在计算系统中的数字图像转录和操纵的系统、设备、组件、模块、例程、数据结构和过程的某些实施例。在以下描述中,包括组件的特定细节以提供对所公开技术的某些实施例的透彻理解。相关领域的技术人员还将理解,该技术可以具有附加实施例。该技术还可以在没有以下参考图1A-4描述的实施例的若干细节的情况下实践。
如本文所使用的,术语“电子邮件服务器”通常是指专用于运行这样的应用的计算机:这些应用被配置为经由计算机网络(例如互联网)接收来自发送方的传入电子邮件并将传出电子邮件转发给接收方。此类应用的示例包括Microsoft
Figure BDA0003128396400000041
qmail、Exim和sendmail。电子邮件服务器可以为对应的用户维护和/或访问一个或多个收件箱。如本文所使用的,“收件箱”是被配置为包含表示用户的传入电子邮件的数据的文件夹。电子邮件服务器还可以维护和/或访问被配置为存储传出电子邮件的一个或多个草稿文件夹和/或发件箱和/或其它合适的邮箱。
还如本文所使用的,“数字图像”通常是指表示图像、图片或其它合适类型的图形实体的数字数据。示例数字图像可以是位图、JPEG或其它合适的图像格式。术语“数字文本数据”通常是指表示可读材料的字符而非对应的图形表示的数字数据。数字文本数据可以包括纯文本、格式化文本、结构化文本或其它合适类型的文本数据。数字文本数据可以根据各种编码规则被编码,并且还可以包括人类可读的元数据(或标记数据),例如HTML、XML等。
此外,术语“文本识别”通常是指将键入、手写或印刷的文本的图像电子转换为机器编码文本的技术。例如,可以经由文本识别将文档的照片转换为机器编码文本,以允许复制、编辑或以其它方式数字操纵文档中的字符。术语“内容格式”或“内容结构”通常是指一种编码格式,根据该编码格式可以将数据作为可显示信息进行操纵。内容格式可以用于记录、传输和/或准备用于观察或解释的数字数据。
虽然白板讨论可以是开发策略、解决问题、解释设计细节等的有效方法,但是这些讨论的摘要或会议笔记可能难以以电子方式作为文本转录件进行传播。例如,在白板会议期间,会议参与者可以将动作项目的笔记手写为具有多个项目符号(bullet point)的列表。可以使用相机或交互式白板的功能来捕获具有项目符号的笔记的数字图像。然后可以将笔记的图像附加到电子邮件并传输给会议参与者。然而,为了将捕获的图像中的笔记转换为文本的项目符号或其它合适形式的数字数据,会议参与者之一(或另一人)必须手动键入笔记,并根据捕获的图像将键入的笔记格式化为项目符号。这种手动转录可能很麻烦且效率低下,因此会对会议参与者的生产率产生负面影响。此外,手动转录也容易出现人为错误。
所公开技术的若干实施例可以通过基于会议笔记的图像实现会议笔记的自动转录以用于电子传播来解决上述困难中的至少一些。例如,在接收到用户命令时,可以对电子邮件中导入的数字图像进行模式识别,以将数字图像转换为数字文本数据。除了或代替数字图像,转换后的数字文本数据然后可以自动插入到电子邮件中,以用于传输到合适目的地。这样,白板或其它类型的讨论的摘要或会议笔记可以容易地作为文本转录件电子地传播,而几乎不涉及或完全不涉及人为错误,如下面参考图1A-4更详细描述的。
图1A-1D是示出根据所公开技术的实施例的在操作的某些阶段期间实现数字图像转录和操纵的计算系统100的示意图。如图1A所示,计算系统100可以包括与用户101的客户端设备102互连的计算机网络104,与包含一个或多个收件箱114的网络存储装置112互连的一个或多个电子邮件服务器106(在此为简单起见称为“电子邮件服务器106”),以及互连到包含模式模型110和结构模型115的数据存储库108的文本识别器107。计算机网络104可以包括内联网、广域网、互联网或其它合适的类型的网络。
虽然图1A中示出了计算系统100的特定组件,但是在其它实施例中,计算系统100也可以包括附加的和/或不同的组件或布置。例如,计算系统100还可以包括附加的网络存储设备、附加的主机和/或其它合适的组件(未示出)。在其它实施例中,网络存储装置112和/或数据存储库108可以集成到电子邮件服务器106中。
如下文更详细描述的,计算系统100的各种组件可以被配置为协作并执行对数字图像的自动转录和操纵,该数字图像例如为由保存可见内容的白板102的用户101拍摄的数字图像109。在所示示例中,白板102上的内容包括如下的手写编号的动作项目列表:
1、清除田野
2、安装围栏
3、架设建筑物
4、安装机器人
5、造车
在其它示例中,白板102上的内容还可以包括具有项目符号、段落、句子、图形草图或其它合适类型内容的列表。
在某些实施例中,白板102可以是可以在其上手写内容的物理白板102。用户101然后可以使用例如相机103、智能手机或其它合适的设备拍摄白板102上的内容的数字图像109。数字图像109然后可以经由无线或有线连接从相机103上传或以其它方式传输到客户端设备102以供进一步处理。在其它实施例中,白板102可以是交互式白板,其被配置为例如通过捕获白板102上的内容的照片并将捕获的照片作为数字图像109发送给客户端设备102而直接生成数字图像109。虽然在图1A中使用白板102作为用于保存手写内容(例如,上面所示的列表)的物理介质的示例,但是在其它实施例中,计算机系统100还可以对从黑板、监视器屏幕或其它合适类型的输出设备捕获的显示内容执行自动转录和操纵。
客户端设备102可以各自包括促进用户101经由计算机网络104访问由电子邮件服务器106提供的计算服务的计算设备。例如,在所示实施例中,客户端设备102包括台式计算机。在其它实施例中,客户端设备102还可以包括智能电话、膝上型计算机、平板计算机、游戏控制台或其它合适的计算设备。虽然出于说明目的在图1A中示出了一个用户101,但在其它实施例中,计算系统100可以促进任何合适数量的用户101访问由电子邮件服务器106提供的合适类型的计算服务。
如图1A所示,客户端设备102可以被配置为执行合适的指令以向用户101提供电子邮件客户端120。在某些实施例中,电子邮件客户端120可以是独立的应用,例如Microsoft
Figure BDA0003128396400000071
在其它实施例中,电子邮件客户端120可以是基于网络的应用,例如Google
Figure BDA0003128396400000072
在所示示例中,电子邮件客户端120可以包括具有多个控制元素的用户界面121,该控制元素例如为“撰写”按钮122、“导入”按钮124、“转录”按钮126和“发送”按钮127。
用户界面121还可以包括工作区域123,用于促进撰写、编辑、查看或与电子邮件服务相关联的其它合适的操作。例如,工作区域123可以被配置为在用户101启动“撰写”按钮122时促进来自用户101的关于白板102上的内容的对草稿电子邮件116的撰写。电子邮件116可以包括标题117,其具有例如“发往:”字段、“回复:”字段、“来自:”字段、“抄送:”字段和/或其它合适的数据字段。为简洁起见,图1A中仅显示了“发往:”字段和“回复:”字段。在图示示例中,“发往:”字段可以包含“项目团队”的分发列表,而“回复:”字段可以包含主题行,即“项目摘要”。
在某些实现方式中,用户101可以启动“导入”按钮124,如光标128所表示的,以将数字图像109插入到草稿电子邮件116的正文部分118中。在一个示例中,相机103可以经由有线或无线连接而连接到客户端设备102并且被客户端设备102视为外部驱动器。这样,在检测到“导入”按钮124的启动时,电子邮件客户端120可以被配置为示出允许用户102浏览相机103上的文件并选择数字图像109以供导入的弹出窗口(未示出)。在其它示例中,用户101可以将数字图像109从相机103复制并粘贴到草稿电子邮件116的正文部分118中。在其它示例中,电子邮件客户端120可以被配置为以其它合适的方式将数字图像109插入草稿电子邮件116的正文部分118中。
电子邮件服务器106可以被配置为促进电子邮件接收、存储、转发和其它相关功能。例如,如图1A所示,用户101可以在网络存储装置112中具有对应的电子邮件文件夹114。电子邮件文件夹114可以被配置为包含被接收、发送、删除等的电子邮件116的副本。电子邮件文件夹114还可以被配置为包含经由例如与客户端设备102上的电子邮件客户端120的周期性同步而在客户端设备102上撰写的草稿电子邮件116的副本。例如,在网络存储装置112上的用户101的电子邮件文件夹114可以在电子邮件客户端120中具有草稿电子邮件116的服务器副本以及插入的数字图像109的副本。
在将数字图像109插入到草稿电子邮件116的正文部分118时,在某些实施例中,用户101可以启动“转录”按钮126以将数字图像109中的内容(即,动作项目的列表)自动转录为数字文本数据114(图1C所示),而无需用户101手动键入列表。例如,如图1B所示,在接收到由光标128'表示的对“转录”按钮126的启动时,电子邮件客户端120和/或客户端设备102的其它合适的组件可以被配置为经由计算机网络104将转录命令112发送给电子邮件服务器106。在某些实施例中,转录命令112可以包括对数字图像109的转录的请求,数字图像109的图像标识或副本,草稿电子邮件116的电子邮件标识,用户101的认证凭证,和/或其它合适的信息。在其它实施例中,电子邮件客户端120可以被配置为自动检测导入的数字图像109,并询问用户101以确认自动转录数字图像109。
在接收到转录命令112时,电子邮件服务器106可以将数字图像109'的副本连同转录数字图像109'中的内容的请求一起提供给文本识别器107。在图1B所示的示例中,文本识别器107被示为与电子邮件服务器106分开的服务器。在另一示例中,文本识别器107可以是电子邮件服务器106的一部分。在其它示例中,文本识别器107可以包括托管在其它合适的服务器(未示出)上的一个或多个计算服务,例如在数据中心中。
文本识别器107可以被配置为基于数据存储库108中的模式模型110和结构模型115执行模式和结构识别以识别数字图像109中的文本。在某些实施例中,可以经由机器学习来开发模式模型110和结构模型115,如下面参考图2更详细描述的。在其它实施例中,模式模型110和结构模型115还可以包括由用户101或其它合适的实体配置的规则。在某些实现方式中,模式模型110可以包括形状、位置、相对大小和/或对应于特定字符的其它合适值的参数。例如,在垂直线顶部带有点的形状可以对应于字母“i”。结构模型115可以包括触发词或关键词(例如“1”、“2”、“3”等),标点符号(例如,项目符号、空格等),内容外观(例如,粗体、斜体、下划线等)或识别的文本的单独地对应于文本结构或格式的其它特性。在其它实现方式中,模式模型110和/或结构模型115可以包括用于识别字符和文本结构的其它合适的规则、参数、特征或属性。
如图1C所示,文本识别器107可以被配置为利用模式模型110将数字图像109'中的内容转录为数字文本数据114,并识别数字图像109'中包括的内容结构或格式。文本识别器107然后可以将识别出的内容格式应用于数字文本数据114以生成排版的数字文本数据114。然后,文本识别器107可以将排版的数字文本数据114发送给电子邮件服务器106以插入到草稿电子邮件116的正文部分118中。文本识别器107的示例组件和操作在下面参考图2更详细地描述。
在接收到排版的数字文本数据114时,除了或代替数字图像109,电子邮件服务器106可以将数字文本数据114插入到草稿电子邮件116的服务器副本的正文部分118中。通过周期性同步或其它合适的技术,除了或代替数字图像109,数字文本数据114也可以被传输到客户端设备102,并在电子邮件客户端120的正文部分118中显现给用户101。然后,用户101可以可选地修改显现的数字文本,重新格式化显现的数字文本,或执行其它合适的操作。例如,用户101现在可以将一些或全部数字文本数据114复制并粘贴到正文部分118的另一部分中。在从用户101接收到发送电子邮件的命令时,例如,通过启动由光标128”表示的“发送”按钮,电子邮件客户端120和电子邮件服务器106可以合作以将电子邮件116的副本传输到目标目的地,例如具有数字文本数据114而不是数字图像109的另一用户101b的另一客户端设备102。
所公开的技术的若干实施例因此可以在很少或没有用户干预的情况下将数字图像109中包含的手写笔记高效地转录成数字文本数据114。与用户101从数字图像手动键入会议笔记不同,用户的单击可以使数字图像109在撰写期间被自动转录成数字文本数据114并插入到电子邮件116的正文部分118中。通过消除转录期间的人为错误,所公开技术的若干实施例还可以比手动键入会议笔记更准确。因此,当与会议笔记的手动转录相比时,可以提高会议参与者(例如,用户101a和101b)的生产率。
图2是示出根据所公开的技术的实施例的计算系统100的某些硬件/软件组件的示意图。在图2中,为清楚起见,仅示出了图1A-1D的计算系统100的某些组件。在图2和本文的其它图中,单独的软件组件、对象、类、模块和例程可以是用C、C++、C#、Java和/或其它合适的编程语言编写为源代码的计算机程序、过程或进程。组件可以包括但不限于一个或多个模块、对象、类、例程、属性、进程、线程、可执行文件、库或其它组件。组件可以是源形式或二进制形式。组件可以包括在编译之前的源代码(例如,类、属性、过程、例程),已编译的二进制单元(例如,库、可执行文件),或在运行时实例化并使用的工件(例如,对象、进程、线程)的方面。
系统内的组件可以在系统内采用不同的形式。作为一个示例,包括第一组件、第二组件和第三组件的系统可以但不限于涵盖第一组件是源代码中的属性、第二组件是二进制编译库以及第三组件是在运行时创建的线程的系统。计算机程序、过程或进程可以被编译成目标代码、中间代码或机器代码,并呈现以供个人计算机、网络服务器、膝上型计算机、智能电话和/或其它合适的计算设备的一个或多个处理器执行。
同样,组件可以包括硬件电路。本领域普通技术人员将认识到,硬件可以被认为是石化软件,而软件可以被认为是液化硬件。仅举一个示例,组件中的软件指令可以被烧录到可编程逻辑阵列电路中,或者可以被设计为具有适当集成电路的硬件电路。同样,硬件可以由软件来模拟。源代码、中间代码和/或目标代码和相关联数据的各种实现方式可以存储在计算机存储器中,该计算机存储器包括只读存储器、随机存取存储器、磁盘存储介质、光存储介质、闪速存储器设备和/或除了传播信号以外的其它合适的计算机可读存储介质。
如图2所示,计算系统100可以包括彼此可操作地耦合的模型开发器130和文本识别器107。虽然模型开发器130在图2中被示为与文本识别器107分开的组件,但在其它实施例中,模型开发器130可以与文本识别器107集成在一起。在其它实施例中,模型开发器130可以由与文本识别器107分开的一个或多个其它在线或离线服务器(未示出)提供。
模型开发器130可以被配置为基于包含数字图像109”和相关联的数字文本114”和结构117的训练数据集111,经由各种机器学习技术来开发和生成模式模型110和结构模型115。相关联的数字文本114”和结构117可以被手动生成,经由非结构化学习自动生成,或经由其它合适的技术生成。在一种实现方式中,模型开发器130可以被配置为使用神经网络,该神经网络包括通常称为“神经元”或“人工神经元”的多层对象,以基于训练数据集111执行机器学习。通过使用神经网络,模型开发器130可以提供模式模型110和结构模型115的集合,它们可以被文本识别器107用于自动转录和格式化操作。在一个示例中,模式模型110可以包括与数字图像109”相关的各种变量值。示例变量可以包括几何形状、大小、空间布置和/或其它合适的参数。因此,一个示例模式模型110可以包括当数字图像的一部分具有大致圆形形状时数字图像109”的一部分代表字母“o”的指示。在其它示例中,模式模型110可以具有其它合适的特征和属性。在图示的实施例中,模型开发器130提供模式模型110和结构模型115以存储在数据存储库108处。在其它实施例中,模型开发器130可以直接将模式模型110和/或结构模型115提供给文本识别器107,或将模式模型110存储在其它合适的位置。
如图2所示,文本识别器107可以包括彼此操作耦合的字符标识器132、结构标识器134和文本格式化器136。虽然为了说明的目的在图2中示出了文本识别器107的特定组件或模块,但是在其它实施例中,文本识别器107还可以包括接口、网络或其它合适类型的组件和/或模块。在其它实施例中,上述组件中的至少一个组件可以由与文本识别器107分开的外部应用/服务器提供。
在某些实施例中,在转录处理的第一阶段,字符标识器132可以基于数据存储库108中的模式模型110来标识在接收到的数字图像109中的单独字符。在一个实施例中,字符标识器132可以扫描在接收到的数字图像109中的单独形状或形状组合,并基于模式模型110将它们转换为一种或多种ASCII或其它合适类型的字符、标点符号、特殊字符等。在其它实施例中,字符标识器132还可以被配置为识别行、分段符、空格或其它合适类型的不可见字符。在完成识别数字图像109中的字符后,字符标识器132将数字文本数据114转发给结构标识器134以进行进一步处理。
在接收到数字文本数据114后,结构标识器134可以被配置为基于结构模型115来识别数字文本数据114中的一个或多个内容结构或格式。示例内容结构可以包括具有项目符号的列表、表格、段落等。在某些实施例中,此类内容结构的识别可以基于触发词或关键字(例如,“1”、“2”、“3”等),标点符号(例如,项目符号、空格等),内容外观(例如,粗体、斜体、下划线等),或在使用例如神经网络开发的结构模型中指定的识别的文本的其它特性。在其它实施例中,内容结构的识别可以基于识别的文本的相对位置、相对大小或其它简档。在其它实施例中,内容结构的识别可以基于上述技术的组合中的任一种。
在识别内容结构后,结构标识器134可以将数字文本数据114和识别出的内容结构119转发给文本格式化器136以进行进一步处理。文本格式化器136可以被配置为将内容结构119自动应用于识别的文本数据114,以导出对应于数字图像109的排版文本数据114'。例如,文本格式化器136可以被配置为将识别的文本数据114格式化到一列中,并在该列中的每个条目前面插入项目符号或编号。在另一示例中,文本格式化器136可以被配置为将识别的文本格式化为表格、列、段落或其它合适类型的格式。
文本识别器107然后可以被配置为向电子邮件服务器106提供排版的文本数据114'。如以上参考图1A-1D更详细描述的,除了或代替导入的数字图像109,电子邮件服务器106和/或在客户端设备102上的电子邮件客户端120然后可以在正在撰写的电子邮件116的正文部分118中自动插入和显现接收到的排版的数字文本数据。然后,用户101可以可选地修改显现的文本,重新格式化显现的文本,或执行其它合适的操作。在从用户101接收到发送电子邮件116的命令时,电子邮件客户端120和电子邮件服务器106可以合作以将电子邮件116的副本发送到目标目的地。
图3A-3C是示出根据所公开的技术的实施例的电子消息中的内容的自动概括的示例过程的流程图。虽然下面参考图1A-1D的计算系统100描述了这些过程,但在其它实施例中,这些过程也可以在具有附加和/或不同组件的计算系统中实现。
如图3A所示,过程200可以包括在阶段202处将数字图像导入草稿电子邮件的正文部分。然后过程200可以包括决策阶段204,以确定是否接收到将数字图像转换为文本的转录命令。响应于确定已接收到转录命令,过程200继续以在阶段206处将数字图像自动转录为草稿电子邮件的正文部分中的文本。下面将参考图3B更详细地描述执行这种自动转录的示例操作。过程200然后可以进行到另一决策阶段208以确定是否接收到发送命令。响应于确定接收到发送命令,过程200可以包括将草稿电子邮件发送到目标目的地。否则,过程200可以包括在阶段211处将电子邮件保存为草稿或执行其它合适的操作。响应于确定尚未接收到转录命令,过程200直接进行到决策阶段208。
如图3B所示,操作可以包括在阶段212处将数字图像的副本传输到文本识别器。然后操作可以包括在阶段214处从文本识别器接收数字文本数据。以下参考图3C更详细地描述由文本识别器执行以转录数字图像的示例操作。然后,在阶段216处,除了或代替数字图像,操作可以包括将数字文本自动插入到草稿电子邮件的正文部分中。
图3C是示出根据所公开的技术的实施例的由文本识别器自动转录数字图像的示例操作的流程图。如图3C所示,操作包括在阶段220处执行文本模式识别。然后操作可以包括在阶段222处执行结构识别。以上参考图1A-2描述了这种文本模式识别和内容结构识别的示例实现方式。然后,操作可以包括在阶段224处将识别出的内容结构应用于识别的文本。
图4是适用于图1中的计算系统100的某些组件的计算设备300。例如,计算设备300可以适用于图1A的电子邮件服务器106、文本识别器107或客户端设备102。在非常基本的配置302中,计算设备300可以包括一个或多个处理器304和系统存储器306。存储器总线308可以用于在处理器304和系统存储器306之间进行通信。
取决于期望的配置,处理器304可以是任何类型的,包括但不限于微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或其任何组合。处理器304可以包括一级或多级高速缓存,例如,一级高速缓存310和二级高速缓存312,处理器核心314和寄存器316。示例处理器核心314可以包括算术逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核心(DSP核心),或它们的任意组合。示例存储器控制器318也可以与处理器304一起使用,或者在一些实现方式中,存储器控制器318可以是处理器304的内部部分。
取决于期望的配置,系统存储器306可以是任何类型的,包括但不限于易失性存储器(例如RAM)、非易失性存储器(例如ROM、闪速存储器等)或其任意组合。系统存储器306可以包括操作系统320、一个或多个应用322以及程序数据324。该描述的基本配置302由内部虚线内的那些组件示出。
计算设备300可以具有附加特征或功能以及附加接口以促进在基本配置302与任何其它设备和接口之间的通信。例如,总线/接口控制器330可以用于经由存储接口总线334促进在基本配置302与一个或多个数据存储设备332之间的通信。数据存储设备332可以是可移除存储设备336、不可移除存储设备338或其组合。可移除存储设备和不可移除存储设备的示例包括磁盘设备,例如软盘驱动器和硬盘驱动器(HDD),光盘驱动器(例如光盘(CD)驱动器或数字通用盘(DVD)驱动器),固态驱动器(SSD),以及磁带驱动器等等。示例计算机存储介质可以包括以用于存储信息(例如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。术语“计算机可读存储介质”或“计算机可读存储设备”不包括传播信号和通信介质。
系统存储器306、可移除存储设备336和不可移除存储设备338是计算机可读存储介质的示例。计算机可读存储介质包括但不限于:RAM,ROM,EEPROM,闪速存储器或其它存储器技术;CD-ROM,数字多功能磁盘(DVD)或其它光存储装置;盒式磁带,磁带,磁盘存储装置或其它磁存储设备;或可以用于存储所需信息并且可以由计算设备300访问的任何其它介质。任何此类计算机可读存储介质都可以是计算设备300的一部分。术语“计算机可读存储介质”不包括传播信号和通信介质。
计算设备300还可以包括用于促进从各种接口设备(例如,输出设备342、外围接口344和通信设备346)经由总线/接口控制器330到基本配置302的通信的接口总线340。示例输出设备342包括图形处理单元348和音频处理单元350,其可以被配置为经由一个或多个A/V端口352与各种外部设备(例如显示器或扬声器)通信。示例外围接口344包括串行接口控制器354或并行接口控制器356,其可以被配置为与诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备等)的外部设备或其它外围设备(例如,打印机、扫描仪等)经由一个或多个I/O端口358通信。示例通信设备346包括网络控制器360,其可以被布置为促进与一个或多个其它计算设备362通过网络通信链路经由一个或多个通信端口364进行通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以由计算机可读指令、数据结构、程序模块或调制数据信号中的其它数据(例如载波或其它传输机制)来体现,并且可以包括任何信息传递介质。“调制数据信号”可以是以编码信号中的信息的方式设置或改变其特性中的一个或多个特性的信号。通过示例而非限制,通信介质可以包括诸如有线网络或直接有线连接的有线介质,以及诸如声学、射频(RF)、微波、红外(IR)和其它无线介质的无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质。
计算设备300可以被实现为小外形规格便携式(或移动)电子设备(例如手机、个人数字助理(PDA)、个人媒体播放器设备、无线网络手表设备、个人耳机设备、专用设备或包含上述功能中的任何功能的混合设备)的一部分。计算设备300还可以被实现为包括膝上型计算机和非膝上型计算机配置的个人计算机。
根据上文,可以理解,为了说明的目的已经在本文中描述了本公开的特定实施例,但是在不背离本公开的情况下可以进行各种修改。另外,除了或替代其它实施例的元素,一个实施例的元素中的许多元素可以与其它实施例组合。因此,本技术不受除了所附权利要求以外的限制。

Claims (10)

1.一种在撰写电子消息期间进行自动数字图像转录的方法,所述方法包括:
将数字图像导入在电子邮件客户端中正在撰写的电子消息的正文部分;
接收转录命令以自动转录所述电子消息中的导入的数字图像;
响应于接收到所述转录命令,
基于所述导入的数字图像中的模式来执行文本识别,以生成与所述导入的数字图像相对应的数字文本数据;
基于所述导入的数字图像来确定所述数字文本数据的内容格式;
将所确定的内容格式自动应用于所生成的数字文本数据,由此对所述数字文本数据进行排版;并且
将排版的数字文本数据插入并显现在所述电子邮件客户端中正在撰写的所述电子消息的副本中;以及
在接收到用于发送在所述电子邮件客户端处正在撰写的所述电子消息的用户输入时,将带有所插入的排版的数字文本数据的所述电子消息的副本传输到目的地。
2.根据权利要求1所述的方法,还包括:
从所述用户接收将所述数字图像导入所述电子消息的请求;以及
响应于接收到所述请求,将所述数字图像导入所述电子图像的正文部分;并且
其中,执行文本识别包括基于在所述电子消息的正文部分中的所述导入的数字图像中的模式来执行文本识别,以生成与所述导入的数字图像相对应的数字文本数据。
3.根据权利要求1所述的方法,其中,执行模式识别包括基于用于识别在所述导入的数字图像中的字符的手写模式的模式模型来执行文本识别,以生成与所述导入的数字图像相对应的数字文本数据。
4.根据权利要求1所述的方法,其中:
确定所述内容格式包括确定将根据其布置所述数字文本数据的列表、表格或段落中的一个或多个;并且
自动应用所确定的内容格式包括将所述数字文本数据自动布置成列表、表格或段落中的一个或多个。
5.根据权利要求1所述的方法,其中:
确定所述内容格式包括基于关键字、标点符号或内容外观中的一个或多个,确定将根据其布置所述数字文本数据的列表、表格或段落中的一个或多个;并且
自动应用所确定的内容格式包括基于关键字、标点符号或内容外观中的所述一个或多个,将所述数字文本数据自动布置成列表、表格或段落中的一个或多个。
6.根据权利要求1所述的方法,其中:
所确定的内容格式为列表;并且
自动应用所确定的内容格式包括:
将所述数字文本数据自动布置成列;以及
在所述列中的每个条目前面插入项目符号或数字标题中的一个或多个。
7.根据权利要求1所述的方法,其中,插入所述排版的数字文本数据包括代替所述导入的数字图像,将所述排版的数字文本数据插入到正在撰写的所述电子消息的副本中。
8.根据权利要求1所述的方法,其中,插入所述排版的数字文本数据包括除了所述导入的数字图像之外,将所述排版的数字文本数据插入正在撰写的所述电子消息的副本中。
9.根据权利要求1所述的方法,还包括:
在将所述排版的数字文本数据插入正在撰写的所述电子消息的副本中之后,
将所插入的排版的数字文本数据显现给所述用户;以及
在接收到用于发送正在撰写的所述电子消息的所述用户输入时,在将带有所述排版的数字文本数据的所述电子消息传输到所述目的地之前,接收对所显现的排版的数字文本数据的一个或多个编辑。
10.一种用于处理电子消息的计算设备,所述计算设备经由计算机网络互连到远程服务器,其中,所述计算设备包括:
处理器;以及
包含指令的存储器,所述指令能够由所述处理器执行以使所述计算设备执行根据权利要求1-9中的一项所述的过程。
CN201980085581.4A 2018-12-23 2019-12-16 数字图像转录和操纵 Pending CN113490959A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/231,564 US10963723B2 (en) 2018-12-23 2018-12-23 Digital image transcription and manipulation
US16/231,564 2018-12-23
PCT/US2019/066431 WO2020139591A1 (en) 2018-12-23 2019-12-16 Digital image transcription and manipulation

Publications (1)

Publication Number Publication Date
CN113490959A true CN113490959A (zh) 2021-10-08

Family

ID=69182603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980085581.4A Pending CN113490959A (zh) 2018-12-23 2019-12-16 数字图像转录和操纵

Country Status (4)

Country Link
US (2) US10963723B2 (zh)
EP (1) EP3881253A1 (zh)
CN (1) CN113490959A (zh)
WO (1) WO2020139591A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10984279B2 (en) * 2019-06-13 2021-04-20 Wipro Limited System and method for machine translation of text
EP3931826A4 (en) * 2019-08-13 2022-05-11 Samsung Electronics Co., Ltd. SERVER SUPPORTING VOICE RECOGNITION OF A DEVICE AND METHOD OF OPERATING THE SERVER
US11328120B2 (en) * 2020-09-08 2022-05-10 Vmware, Inc. Importing text into a draft email
US11488634B1 (en) * 2021-06-03 2022-11-01 International Business Machines Corporation Generating video summaries based on notes patterns
CN113553802B (zh) * 2021-06-30 2023-02-07 上海硬通网络科技有限公司 网页的隐藏图片中文字的排版方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050190279A1 (en) * 2004-02-26 2005-09-01 Jonathan Nobels Mobile device with integrated camera operations
US20070220425A1 (en) * 2006-03-14 2007-09-20 Fabrice Matulic Electronic mail editing device, image forming apparatus, and electronic mail editing method
CN101803214A (zh) * 2007-09-12 2010-08-11 微软公司 用于个人通信设备的语音到文本转录
US20120189203A1 (en) * 2011-01-24 2012-07-26 Microsoft Corporation Associating captured image data with a spreadsheet

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2808275C (en) * 2000-06-22 2016-11-15 Microsoft Corporation Distributed computing services platform
US7174042B1 (en) 2002-06-28 2007-02-06 Microsoft Corporation System and method for automatically recognizing electronic handwriting in an electronic document and converting to text
US20040083434A1 (en) 2002-10-24 2004-04-29 Catherine Fitch System and method for selectively formatting and outputting handwritten notes and drawings
US7496230B2 (en) 2003-06-05 2009-02-24 International Business Machines Corporation System and method for automatic natural language translation of embedded text regions in images during information transfer
US8572275B2 (en) 2005-10-06 2013-10-29 Wrapmail, Inc. Method, system and software for dynamically extracting content for integration with electronic mail
US8144990B2 (en) * 2007-03-22 2012-03-27 Sony Ericsson Mobile Communications Ab Translation and display of text in picture
JP2011123740A (ja) * 2009-12-11 2011-06-23 Fujifilm Corp 閲覧システム、サーバ、テキスト抽出方法及びプログラム
US9418304B2 (en) * 2011-06-29 2016-08-16 Qualcomm Incorporated System and method for recognizing text information in object
US9514377B2 (en) * 2014-04-29 2016-12-06 Google Inc. Techniques for distributed optical character recognition and distributed machine language translation
US20160125387A1 (en) * 2014-11-03 2016-05-05 Square, Inc. Background ocr during card data entry
KR102339461B1 (ko) * 2014-12-18 2021-12-15 삼성전자 주식회사 전자 장치의 텍스트 기반 컨텐츠 운용 방법 및 장치
US10043231B2 (en) 2015-06-30 2018-08-07 Oath Inc. Methods and systems for detecting and recognizing text from images
EP3433795A4 (en) 2016-03-24 2019-11-13 Ramot at Tel-Aviv University Ltd. METHOD AND SYSTEM FOR CONVERTING A TEXT IMAGE
US10223136B2 (en) * 2016-09-30 2019-03-05 Salesforce.Com, Inc. Generating content objects using an integrated development environment
US10664695B2 (en) * 2016-10-26 2020-05-26 Myscript System and method for managing digital ink typesetting

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050190279A1 (en) * 2004-02-26 2005-09-01 Jonathan Nobels Mobile device with integrated camera operations
US20070220425A1 (en) * 2006-03-14 2007-09-20 Fabrice Matulic Electronic mail editing device, image forming apparatus, and electronic mail editing method
CN101803214A (zh) * 2007-09-12 2010-08-11 微软公司 用于个人通信设备的语音到文本转录
US20120189203A1 (en) * 2011-01-24 2012-07-26 Microsoft Corporation Associating captured image data with a spreadsheet

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"ABBYY FinerReader Version 10 User\'s Guide", pages 4, Retrieved from the Internet <URL:https://www.abbyy.com/media/2595/finereader-10-users-guide_english.pdf> *
PANTHO.MJH等: "A System on FPGA for Fast Handwritten Digit Recognition in Embedded Smart Cameras", 《11TH INTERNATIONAL CONFERENCE ON DISTRIBUTED SMART CAMERAS》, 31 December 2017 (2017-12-31), pages 35 - 40 *

Also Published As

Publication number Publication date
US11935313B2 (en) 2024-03-19
EP3881253A1 (en) 2021-09-22
US20200202159A1 (en) 2020-06-25
US20210192261A1 (en) 2021-06-24
WO2020139591A1 (en) 2020-07-02
US10963723B2 (en) 2021-03-30

Similar Documents

Publication Publication Date Title
US11935313B2 (en) Digital image transcription and manipulation
JP6904449B2 (ja) レビューされた1つ以上の文書へのリンクを含む会議レビュー文書の生成
JP7063348B2 (ja) 記録されたメディアからの提案された文書編集の、人工知能を用いた生成
US11080466B2 (en) Updating existing content suggestion to include suggestions from recorded media using artificial intelligence
CN108027873B (zh) 基于捕捉到的笔画信息来与助理组件交互
US11256882B1 (en) Translation training with cross-lingual multi-media support
US11263384B2 (en) Generating document edit requests for electronic documents managed by a third-party document management service using artificial intelligence
US11720741B2 (en) Artificial intelligence assisted review of electronic documents
US11392754B2 (en) Artificial intelligence assisted review of physical documents
US20040243415A1 (en) Architecture for a speech input method editor for handheld portable devices
CN101998107B (zh) 信息处理装置、会议系统和信息处理方法
US20040021700A1 (en) Correcting recognition results associated with user input
JP4081056B2 (ja) 情報処理装置、情報処理方法及びプログラム
WO2014153010A2 (en) Systems and methods for concurrent online and offline document processing
KR20010102224A (ko) 수기 입력 재생 장치 및 시스템
US20140033135A1 (en) Gesture-initiated symbol entry
CN110795929A (zh) 生成用于概括对话文件的标题的系统和方法
US20080313607A1 (en) Unified input stack
US20050276480A1 (en) Handwritten input for Asian languages
US20170220538A1 (en) Smart annotation of content on computing devices
US20150199322A1 (en) Operating Method of Terminal for Proofreading Electronic Document
JP2006005670A (ja) ドキュメント処理装置
Syu et al. Instant messaging with emotion-embedded vectorized handwritings on mobile devices
WO2023076173A1 (en) Voice instructed machine authoring of electronic documents
WO2016187794A1 (zh) 内容识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination