CN110767234B - 音频信息处理方法、装置、电子设备及存储介质 - Google Patents

音频信息处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110767234B
CN110767234B CN201911053962.2A CN201911053962A CN110767234B CN 110767234 B CN110767234 B CN 110767234B CN 201911053962 A CN201911053962 A CN 201911053962A CN 110767234 B CN110767234 B CN 110767234B
Authority
CN
China
Prior art keywords
audio information
information
electronic device
audio
user interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911053962.2A
Other languages
English (en)
Other versions
CN110767234A (zh
Inventor
方迟
朱海舟
陈亮
潘洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
Original Assignee
Douyin Vision Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Douyin Vision Co Ltd filed Critical Douyin Vision Co Ltd
Priority to CN201911053962.2A priority Critical patent/CN110767234B/zh
Publication of CN110767234A publication Critical patent/CN110767234A/zh
Priority to PCT/CN2020/109353 priority patent/WO2021082637A1/zh
Priority to US17/638,693 priority patent/US20220406311A1/en
Application granted granted Critical
Publication of CN110767234B publication Critical patent/CN110767234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/247Telephone sets including user guidance or feature selection means facilitating their use
    • H04M1/2474Telephone terminals specially adapted for disabled people
    • H04M1/2475Telephone terminals specially adapted for disabled people for a hearing impaired user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/14Transforming into visible information by displaying frequency domain information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Otolaryngology (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开涉及一种音频信息处理方法、装置、电子设备及计算机可读存储介质。所述音频信息处理方法包括:确定是否满足录音开始条件;响应于确定满足所述录音开始条件,采集与电子设备相关联的音频信息;对与所述音频信息对应的文字信息进行分词,以获得经分词的文字信息;以及在所述电子设备的用户界面上显示经分词的文字信息。

Description

音频信息处理方法、装置、电子设备及存储介质
技术领域
本公开涉及音频处理技术领域,特别涉及一种音频信息处理方法、装置、电子设备及存储介质。
背景技术
相关技术中,用户可以使用电子设备采集音频信息。在一些情况下,用户可能希望采集的音频信息转化为其他类型的信息(例如,文字信息)。例如,在用户是听障人士的情况下,其可能更依赖于在电子设备的用户界面上显示的文字信息。或者,当用户处于比较嘈杂的周围环境中时,可能听不清声音,这时其可能也更倾向于在电子设备的用户界面上显示的文字信息。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
根据本公开的第一方面,提供一种音频信息处理方法,包括:确定是否满足录音开始条件;响应于确定满足所述录音开始条件,采集与电子设备相关联的音频信息;对与所述音频信息对应的文字信息进行分词,以获得经分词的文字信息;以及在所述电子设备的用户界面上显示经分词的文字信息。
根据本公开的第二方面,提供一种音频信息处理方法,包括:确定是否满足录音开始条件;响应于确定满足所述录音开始条件,采集与电子设备相关联的音频信息;在采集与所述电子设备相关联的音频信息期间,实时识别与所述音频信息对应的文字信息;以及在所述电子设备的用户界面上显示经实时识别的文字信息。
根据本公开的第三方面,提供一种音频信息处理装置,包括:确定单元,被配置为确定是否满足录音开始条件;采集单元,被配置为响应于确定满足所述录音开始条件,采集与所述电子设备相关联的音频信息;分词单元,被配置为对与所述音频信息对应的文字信息进行分词,以获得经分词的文字信息;以及显示单元,被配置为在所述电子设备的用户界面上显示经分词的文字信息。
根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行本公开中所述的音频信息处理方法。
根据本公开的第五方面,提供一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行本公开中所述的音频信息处理方法。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1是示出根据本公开的示例性实施例的音频信息处理方法的流程图;
图2是示出根据本公开的示例性实施例的确定是否满足录音开始条件的一个示例的用户界面的示意图;
图3是示出根据本公开的示例性实施例的在采集与电子设备相关联的音频信息期间实时显示经识别的文字信息的用户界面的示意图;
图4A是示出根据本公开的示例性实施例的在所述电子设备的用户界面上显示待分词区域的用户界面的示意图;
图4B是示出根据本公开的示例性实施例的在所述电子设备的用户界面上显示经分词的文字信息的用户界面的示意图;
图5是示出根据本公开的示例性实施例的对经分词的文字信息进行编辑的用户界面的示意图;
图6是示出根据本公开的示例性实施例的音频信息处理装置的结构框图;
图7是示出能够应用于本公开的示例性实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
另外,在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
再有,需要注意,本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
在本公开中,“电子设备”可以是任何类型的电子设备,例如可以是但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
在本公开中,“窗口”是代码或程序在电子设备的用户界面上显示的媒介。特别地,“应用程序”通过“应用程序窗口”显示在电子设备的用户界面上。
相关技术中,用户可以使用电子设备采集音频信息。在一些情况下,用户可能希望采集的音频信息转化为其他类型的信息(例如,文字信息)。例如,在用户是听障人士的情况下,其可能更依赖于在电子设备的用户界面上显示的文字信息。或者,当用户处于比较嘈杂的周围环境中时,可能听不清声音,这时其可能也更倾向于在电子设备的用户界面上显示的文字信息。
为此,本公开提供了一种音频信息处理方法,所述音频信息处理方法可以采集与电子设备相关联的音频信息,并且对与音频信息对应的文字信息进行分词,从而得到经分词的文字信息。经分词的文字信息可以后续供用户观看或编辑,这对于用户是听障人士的情况或者用户处于比较嘈杂的周围环境中的情况下是特别有利的。
以下将结合附图对本公开的音频信息处理方法的示例性实施例进行进一步描述。
图1是示出根据本公开的示例性实施例的音频信息处理方法的流程图。
参照图1,本公开的第一方面可以包括一种音频信息处理方法,所述音频信息处理方法可以包括:确定是否满足录音开始条件(S101);响应于确定满足所述录音开始条件,采集与电子设备相关联的音频信息(S102);对与所述音频信息对应的文字信息进行分词,以获得经分词的文字信息(S103);以及在所述电子设备的用户界面上显示经分词的文字信息(S104)。
在步骤S101中,根据一些实施例,可以由电子设备确定是否满足录音开始条件。根据一些实施例,录音开始条件可以是用户针对电子设备的用户界面的录音开始输入。根据一些实施例,录音开始条件可以是用户针对电子设备的物理按键的录音开始输入。根据一些实施例,录音开始条件也可以与用户的输入无关。
在步骤S102中,根据一些实施例,与电子设备相关联的音频信息可以包括来自电子设备外部的音频信息和来自电子设备内部的音频信息。
在本文中,采集与电子设备相关联的音频信息又可以简称为“录音”。
根据一些实施例,来自电子设备外部的音频信息是指可以由电子设备的音频输入设备(例如,麦克风等)采集的音频信息。例如,来自电子设备外部的音频信息可以包括来自电子设备周围的环境音频信息以及由所述电子设备的音频输出设备(例如,音响、喇叭、听筒等)输出的音频信息(例如,程序音频信息、通话音频信息等)。
根据一些实施例,来自电子设备内部的音频信息是指可以从电子设备的系统直接采集的音频信息。
根据一些实施例,音频信息可以包括非语音信息和与文字信息对应的语音信息,并且所述文字信息被称为与所述音频信息对应的文字信息。
在步骤S103中,根据一些实施例,对文字信息进行分词是指基于一定的分词规则对文字信息进行划分。根据一些实施例,所述对与所述音频信息对应的文字信息进行分词可以包括:基于以下各项中的至少一项对所述文字信息进行分词:以单个字或字母为单元进行分词、以词语为单元进行分词、以短语为单元进行分词、以分句为单元进行分词、以句子为单元进行分词、以标点为单元进行分词、或其组合。
根据一些实施例,取决于分词所基于的分词规则,经分词的文字信息可以是字、字母、词语、短语、分句、句子、标点、或其组合。例如,如图4B所示,对“松下问童子,言师采药去。”进行分词,所获得的经分词的文字信息可以是“松下”、“问童子”、“,”、“言师”、“采药去”和“。”
根据一些实施例,所述分词规则可以是系统默认设置的。根据一些实施例,可以根据用户设置来调整分词规则。基于不同的分词规则对相同的文字信息进行分词,所获得的经分词的文字信息。例如,对“松下问童子,言师采药去。”进行分词,所获得的经分词的文字信息可以是“松”、“下”、“问”、“童”、“子”、“,”、“言”、“师”、“采”、“药”、“去”和“。”。又例如,对“松下问童子,言师采药去。”进行分词,所获得的经分词的文字信息还可以是“松下问童子”、“,”、“言师采药去”和“。”。
在步骤S104中,根据一些实施例,参照图4B,可以直接在电子设备的用户界面400B上显示经分词的文字信息。根据一些实施例,也可以直接在电子设备的用户界面上显示分词卡片410,并在所述分词卡片410上显示经分词的文字信息。
根据一些实施例,所述电子设备的用户界面可以是触敏用户界面。
下文将描述如何确定是否满足录音开始条件。
根据一些实施例,所述确定是否满足所述录音开始条件包括:响应于接收针对所述电子设备的用户界面的音频处理指示输入,确定满足所述录音开始条件。
根据一些实施例,音频处理指示输入可以包括点击输入、按压输入、滑动输入、抬起输入、或其组合。根据一些实施例,音频处理指示输入可以包括一个输入,例如针对音频分词按钮的点击输入、针对用户界面上的一定位置的按压输入等。根据另一些实施例,音频处理指示输入也可以包括多个输入。后文将详细描述包括多个输入的音频处理指示输入。
在一些情况下,可以判断电子设备的用户界面在接收到所述音频处理指示输入时的状态。
根据一些实施例,所述方法还可以包括:接收针对所述电子设备的用户界面的音频处理指示输入,其中,所述确定是否满足录音开始条件包括:确定所述电子设备的用户界面在接收到所述音频处理指示输入时显示的是否为应用程序窗口;响应于确定所述电子设备的用户界面在接收到所述音频处理指示输入时显示的是应用程序窗口,确定所述应用程序窗口是否允许被录音;以及响应于确定所述应用程序窗口允许被录音,确定满足所述录音开始条件。
根据一些实施例,所述电子设备的用户界面在接收到所述音频处理指示输入时显示的可能是应用程序窗口、系统桌面、任务管理器窗口等。
在所述电子设备的用户界面在接收到所述音频处理指示输入时显示的是应用程序窗口的情况下,可以进一步判断该应用程序窗口是否允许被录音。
在一些情况下,应用程序窗口允许被录音。在这些情况下,用户界面在接收到音频处理指示输入时显示的是应用程序窗口,可以确定满足录音开始条件。
在另一些情况下,应用程序窗口不允许被录音。根据一些实施例,应用程序窗口的开发者可能不允许应用程序窗口被录音(例如,出于著作权或隐私权等的原因)。根据一些实施例,用户将应用程序窗口设置为不允许被录音。用户可能因为在操作应用程序窗口时不希望被打扰等原因而将应用程序窗口设置为不允许被录音。例如,可通过用户设置为不允许被录音的应用程序窗口可以是游戏类应用程序窗口。因此,用户界面在接收到音频处理指示输入时显示不允许被录音的应用程序窗口的情况下,可以确定不满足录音开始条件。
以这样的方式,可以基于对用户界面在接收到音频处理指示输入时显示的是否为应用程序窗口,确定是否可以进一步判断该应用程序窗口是否允许被录音。对于不允许被录音的应用程序窗口而言,如果在应用程序窗口处接收到音频处理指示输入(例如,用户误操作或者音频处理指示输入的输入方式与显示的应用程序窗口中的某个操作的输入方式相同等),电子设备不会响应于所述音频处理指示输入而开始录音,这使得对音频处理指示输入的响应更精确,提升了用户体验。
根据一些实施例,所述确定是否满足录音开始条件还包括:响应于确定所述电子设备的用户界面在接收到所述音频处理指示输入时显示的不是应用程序窗口,确定满足所述录音开始条件。
根据一些实施例,电子设备的用户界面在接收到所述音频处理指示输入时可以不是应用程序窗口,例如可以是桌面窗口、任务管理器窗口等。在这些情况下,由于可能不存在被打扰的问题,因此电子设备可以直接确定满足录音开始条件,并开始录音,简化了确定是否满足录音开始条件的步骤。
如上文所述,所述音频处理指示输入可以包括单个输入也可以包括多个输入。
根据一些实施例,所述接收针对所述电子设备的用户界面的音频处理指示输入可以包括:接收针对所述电子设备的用户界面的功能菜单呼出输入;响应于接收到所述功能菜单呼出输入,在所述电子设备的用户界面上显示功能选择菜单,其中,所述功能选择菜单包括音频分词功能选项;以及接收针对所述音频分词功能选项的选择。
图2是示出根据本公开的示例性实施例的确定是否满足录音开始条件的一个示例的用户界面200的示意图。下文将结合图2描述如何通过功能选择菜单和对功能选择菜单上的功能选项的选择来确定录音开始条件。
根据一些实施例,所述音频处理指示输入可以包括两个输入。所述音频处理指示输入的第一输入包括针对所述电子设备的用户界面的功能菜单呼出输入。参照图2,响应于接收到所述功能菜单呼出输入(例如,针对功能菜单呼出按钮的点击输入、针对用户界面的按压输入、从电子设备的用户界面的下边缘起向上进行的滑动输入等),在所述电子设备的用户界面上显示功能选择菜单201。根据一些实施例,所述功能选择菜单201可以包括多个功能选项。根据图2所示的示例,所述功能选择菜单201可以包括三个功能选项,分别为音频分词功能选项202-1、录屏截图功能选项202-2和图片分词功能选项202-3。当然,本公开不限于此,所述功能选择菜单可以包括任意数量个功能选项。用户可以选择功能菜单201中的一个功能选项。根据一些实施例,所述音频处理指示输入还包括针对音频分词功能选项202-1的选择作为所述音频处理指示输入的第二输入。
以这样的方式,可以分两个输入来确定是否满足录音开始条件,这为用户提供了更多的确定机会和更长的考虑时间,能够防止用户因为误操作而非有意地开始录音。
根据一些实施例,所述音频信息处理方法还可以包括:接收针对所述电子设备的用户界面的音频处理指示输入,其中,所述确定是否满足录音开始条件可以包括:获取所述音频处理指示输入在所述电子设备的用户界面上的位置;确定所述电子设备的用户界面在所述位置处是否属于文字可提取区域;以及响应于确定所述电子设备的用户界面在所述位置处不属于文字可提取区域,确定满足所述录音开始条件。
根据一些实施例,电子设备的用户界面可以包括文字可提取区域和文字不可提取区域。文字可提取区域是指响应于文字提取输入可选中文字的区域,例如,聊天应用程序中的文字类会话所处的区域、邮箱应用程序中的文字类正文所处的区域等。文字不可提取区域是指响应于文字提取输入不可选中文字的区域,例如,系统桌面、相册应用程序中的图片所处的区域等。所述文字提取输入可以包括针对文字可提取区域的点击输入、按压输入、滑动输入、抬起输入、或其组合。可见,文字提取输入可能会与音频处理指示输入发生重叠。
根据一些实施例,当所述音频处理指示输入在所述电子设备的用户界面上的位置不属于文字可提取区域时,确定满足录音开始条件,并进行录音。以这样的方式,可以更精确地确定录音开始条件,不会与文字提取输入互相干扰,提升了用户体验。
根据一些实施例,在如前所述音频处理指示输入包括多个输入(即功能菜单呼出输入和针对所述音频分词功能选项的输入)的情况下,所述获取所述音频处理指示输入在所述电子设备的用户界面上的位置可以包括:获取所述功能菜单呼出输入在所述电子设备的用户界面上的位置。根据一些实施例,响应于确定作为所述音频处理指示输入的第一输入的功能菜单呼出输入不属于文字可提取区域,确定可以显示功能选择菜单。然后作为所述音频处理指示输入的第二输入的在所述功能选择菜单中的音频分词功能选项的选择。
以这样的方式,为了满足录音开始条件,可以通过作为音频处理指示输入的第一输入的功能菜单呼出输入排除针对文字可提取区域的,同时通过作为音频处理指示输入的第二输入的音频分词功能选项确认用户希望开始录音,进一步增加对满足录音开始条件的确定的精确性,提升了用户体验。
根据一些实施例,所述采集与所述电子设备相关联的音频信息可以包括实时采集来自所述电子设备外部的音频信息和/或实时采集所述电子设备内部的音频信息。根据一些实施例,对来自所述电子设备外部的音频信息和/或所述电子设备内部的音频信息的实时采集可以是自动进行的。
根据一些实施例,在一些情况下,音频信息既可以来自所述电子设备外部又可以来自所述电子设备内部。在这些情况下,可以优先选择通过电子设备内部采集音频信息。以通话音频信息为例,在与他人通话过程中,一方面,来自他人的通话音频信息可以通过听筒输出到电子设备外部并通过麦克风采集。另一方面,可以直接从电子设备的系统采集来自他人的通话音频信息。由于通过听筒输出到电子设备外部并通过麦克风采集的过程中,可能同时会采集到可能形成通话音频信息的噪音的来自电子设备周围的环境音频信息,因此可以优先从电子设备的系统采集他人的通话音频信息。
根据一些实施例,所述实时采集来自所述电子设备内部的音频信息包括:创建底层硬件通路;以及响应于确定满足所述录音开始条件,通过所述底层硬件通路实时采集作为所述电子设备内部的音频信息的来自底层硬件的音频信息。
根据一些实施例,电子设备内部的音频信息可以包括来自底层硬件的音频信息。来自底层硬件的音频信息无需经过外放就可以从电子设备(例如,系统)内部获得,因此在采集来自底层硬件的音频信息时不会受到来自电子设备周围的环境音频信息(例如,噪音等)的干扰。
根据一些实施例,为了能够使电子设备在响应于确定满足录音开始条件的情况下获取来自底层硬件的音频信息,可以创建底层硬件通路。底层硬件通路可以用于传递来自底层硬件的音频信息。
根据一些实施例,所述音频信息处理方法还可以包括:创建硬件抽象层,其中所述硬件抽象层适于配置所述底层硬件通路以提供来自底层硬件的音频信息的接口;以及创建虚拟音频信息输入设备,其中所述虚拟音频信息输入设备被配置为在确定满足所述录音开始条件时调用所述硬件抽象层,以通过由所述硬件抽象层配置以提供来自底层硬件的音频信息的接口的所述底层硬件通路实时采集来自底层硬件的音频信息。
根据一些实施例,以安卓系统为例,可以为电子设备创建硬件抽象层(HAL),所述硬件抽象层用于配置底层硬件通路,从而提供符合安卓标准的来自底层硬件的音频信息的接口。通过所述接口可以获取到来自底层硬件的音频信息。根据一些实施例,在例如安卓音频原生框架(android audio native framework)下的audioPolicy中新声明虚拟音频信息输入设备,以便在确定满足所述录音开始条件的情况下调用所述硬件抽象层。根据一些实施例,可以定义虚拟音频信息源,以使用作为安卓原生类的audioRecord获取来自底层硬件的音频信息。根据一些实施例,响应于确定满足所述录音开始条件,配置audioRecord使得使用audioPolicy找到所述虚拟音频信息输入设备,并调用所述硬件抽象层,从而通过所述硬件抽象层访问底层硬件,以获取来自所述底层硬件的音频信息。
以这样的方式,无论来自电子设备内部的音频信息是否经由音频输出设备外放,都可以直接从电子设备的底层硬件实时采集音频信息。并且,该音频信息不会受到电子设备外部的其他音频信息的干扰。
根据一些实施例,所述音频信息处理方法还可以包括:在采集与所述电子设备相关联的音频信息期间,实时识别与所述音频信息对应的文字信息。根据上文所述,实时识别与所述音频信息对应的文字信息可以包括实时识别并获得与所述音频信息中的语音信息对应的文字信息。根据一些实施例,对与所述音频信息对应的文字信息的实时识别可是录音开始之后自动进行的而无需用户针对特定音频信息给出专门用于语音识别的指示。
下文将结合图3描述所采集的音频信息的实时识别与显示。图3是示出根据本公开的示例性实施例的在采集与电子设备相关联的音频信息期间实时显示经识别并获得的文字信息的用户界面300的示意图。
根据一些实施例,所述音频信息处理方法还可以包括:在电子设备的用户界面上实时显示经实时识别的文字信息。如图3的例子所示,可以在电子设备300的用户界面上实时显示经实时识别的文字信息301,即与音频信息对应的文字信息“松下问童子,言师采药去”。
以这样的方式,在采集与电子设备相关联的音频信息期间,用户可以通过电子设备的用户界面实时看到与所述音频信息对应的文字信息。例如,在电子设备的外部环境比较嘈杂并且难以听清音频信息的内容的情况下,用户可以通过实时显示的文字信息了解音频信息的内容。
根据一些实施例,可以通过多种显示方式来显示经实时识别的文字信息。根据一些实施例,经实时识别的文字信息可以显示在电子设备的用户界面上。
根据一些实施例,经实时识别的文字信息可以在用户界面上横向排布,例如,以行为单位排布。根据另一些实施例,经实时识别的文字信息也可以在用户界面上纵向排布,例如,以列为单位排布。当然本公开不限于此,还可以以任何合适的方式显示经实时识别的文字信息,例如以圆形方式排布等。为了方便起见,以下以横向排布方式为例详细描述经实时识别的文字信息在用户界面上的显示。
根据一些实施例,在某一时刻,可以在用户界面上显示一行经实时识别的文字信息。例如,一行经实时识别的文字信息可以包括所述时刻之前一段时间直至所述时刻之间识别出的一部分文字信息。根据另一些实施例,也可以在用户界面上显示多行经实时识别的文字信息。例如,多行经实时识别的文字信息可以包括从确定满足录音开始条件直至所述时刻之间识别出的全部文字信息。
根据一些实施例,可以在显示所述时刻之前一段时间直至所述时刻之间识别出的一部分文字信息(例如,一行经实时识别的文字信息)和显示从确定满足录音开始条件直至所述时刻之间识别出的全部文字信息(例如,多行经实时识别的文字信息)之间进行切换。例如,用户界面显示识别出的一部分文字信息(例如,所述时刻之前一段时间直至所述时刻之间),并且响应于针对识别出的一部分文字信息的文字显示切换输入(例如,点击输入),可以显示识别出的全部文字信息。响应于针对识别出的一部分文字信息的文字显示切换输入(例如,点击输入),可以显示识别出的全部文字信息。再次响应于针对识别出的一部分文字信息的文字显示切换输入(例如,点击输入),可以显示识别出的一部分文字信息。
根据一些实施例,在用户界面上显示的每行经实时识别的文字信息所包含的字数可以是可调整的。例如,每行可以显示5个字符、6个字符、8个字符、10个字符等。根据一些实施例,在用户界面上显示的每行经实时识别的文字信息所包含的字数可以与用户界面的分辨率适配。根据一些示例,分辨率越大的用户界面,每行经实时识别的文字信息所包含的字数可以越多;反之,分辨率越小的用户界面,每行经实时识别的文字信息所包含的字数可以越少。
根据一些实施例,在用户界面上显示的每行经实时识别的文字信息的字体大小可以是可调整的。例如,字体的大小可以是三号字、四号字、五号字等。根据一些实施例,在用户界面上显示的每行经实时识别的文字信息的字体大小可以与用户界面的分辨率适配。根据一些示例,分辨率越大的用户界面,每行经实时识别的文字信息的字体大小可以越大;反之,分辨率越小的用户界面,每行经实时识别的文字信息的字体大小可以越小。
根据一些实施例,经实时识别的文字信息可以显示在用户界面上显示的视图控件中。根据一些实施例,显示经实时识别的文字信息的视图控件的大小可以与经实时识别的文字信息的行数、字体相关联。
根据一些实施例,用于显示经实时识别的文字信息的视图控件的大小可以是可调整的。根据一些示例,可以根据用户输入(例如,拖拽视图控件的边缘或顶点,或者通过在设置中输入视图控件的尺寸等)来调整视图控件的大小。根据一些实施例,可以根据系统默认设置来确定视图控件的大小。
在某一时刻,在用户界面上显示的经实时识别的文字信息受限的情况下(例如,在用户界面上显示一行经实时识别的文字信息),根据一些实施例,在显示完成一行文字信息时,可以不再显示所述显示完成的一行文字信息;并且在所述时刻后,重新在该行中显示后续经实时识别的文字信息。根据另一些实施例,在显示完成一行文字信息时,每识别到一个新的字符时,可以不再显示该一行中最早被识别出的字符,使其余字符依次填补由于不再显示最早被识别出的字符而留出的字符空位,并且在该字符空位中显示识别到的新的字符。以这样的方式,经实时识别的文字信息可以以滚动的方式沿着一定方向(例如,水平向左等)更新显示。
在电子设备的用户界面显示视频类应用程序的情况下,根据一些实施例,可以确定视频播放区域的位置,并且基于所述视频播放区域的位置确定经实时识别的文字信息的显示位置。例如,在非全屏显示的情况下,经实时识别的文字信息的显示位置可以位于视频播放区域之外,以不会对视频播放区域产生遮挡。例如,在全屏显示的情况下,经实时识别的文字信息的显示位置可以位于视频播放区域中的边缘处(例如,下边缘处),以最小化对视频播放区域的遮挡。
根据一些实施例,经实时识别的文字信息的颜色可以是默认设置的(例如,白色)。根据一些实施例,可以基于用户界面中待显示文字信息处的位置的颜色来确定经实时识别的文字信息的颜色。根据一些示例,可以基于待显示文字信息处的位置的颜色和对比度来确定经实时识别的文字信息的颜色,以确保经实时识别的文字信息可以被用户容易地看清。例如,如果用户界面中待显示文字信息处的位置的颜色为白色,则经实时识别的文字信息的颜色可以为黑色。
根据一些实施例并参照图3,所述音频信息处理方法还可以包括:在采集与所述电子设备相关联的音频信息期间,在电子设备的用户界面300上实时显示与所述音频信息相关联的波形图302。
根据一些实施例,与所述音频信息相关联的波形图302可以是实时变化的。根据一些实施例,波形图的实时变化可以与音频信息的实时振幅和实时音频相关联。
以这样的方式,提供了采集与电子设备相关联的音频信息的动画效果,增强了采集与电子设备相关联的音频信息时的画面感,提升了用户的视觉体验。
根据一些实施例,可以在电子设备的用户界面上同时显示经实时识别的文字信息301和与所述音频信息相关联的波形图302。根据另一些实施例,可以在电子设备的用户界面上择一地显示经实时识别的文字信息301和与所述音频信息相关联的波形图302。
根据一些实施例,所述方法还可以包括:接收针对与所述音频信息相关联的波形图的第一切换输入;响应于所述第一切换输入,在电子设备的用户界面上显示经实时识别的文字信息;并且接收针对经实时识别的文字信息的第二切换输入;响应于所述第二切换输入,在电子设备的用户界面上显示与所述音频信息相关联的波形图。
根据一些实施例,可以在用户界面上直接显示经实时识别的文字信息和与所述音频信息相关联的波形图二者之一。并且响应于第一切换输入或第二切换输入,可以在二者间择一地显示。
根据另一些实施例,可以在用户界面上显示视图控件,并且将经实时识别的文字信息和/或与所述音频信息相关联的波形图显示在视图控件中。根据一些实施例,可以在电子设备的用户界面上显示录音视图控件303。根据一些实施方式,经实时识别的文字信息301和与所述音频信息相关联的波形图302可以显示在所述录音视图控件303中。根据一些实施例,可以使在所述录音视图控件303中显示的经实时识别的文字信息301和/或与所述音频信息相关联的波形图302跟随所述录音视图控件303的移动而移动。
以这样的方式,用户可以随时调整经实时识别的文字信息和与所述音频信息相关联的波形图的显示位置,用户操作的自由度更大,提升了用户体验。
根据一些实施方式,可以在所述录音视图控件303中切换显示经实时识别的文字信息301和与所述音频信息相关联的波形图302。例如,可以在所述录音视图控件303中显示经实时识别的文字信息301。响应于针对所述录音视图控件的切换输入,可以切换为在所述录音视图控件303中显示与所述音频信息相关联的波形图302。响应于针对所述录音视图控件的再一次切换输入,可以再次切换为在所述录音视图控件303中显示经实时识别的文字信息301。
以这样的方式,用户可以根据需要选择在用户界面上显示经实时识别的文字信息还是与所述音频信息相关联的波形图,用户操作的自由度更大,提升了用户体验。
如上文所述,根据一些实施例,可以在采集与电子设备相关联的音频信息的过程中,实时识别与所述音频信息对应的文字信息。根据另一些实施例,可以在采集与电子设备相关联的音频信息完成之后再识别与所述音频信息对应的文字信息。
根据一些实施例,所述对与所述音频信息对应的文字信息进行分词可以包括:识别与所述音频信息对应的文字信息;以及对所识别的文字信息进行分词。
以这样的方式,可以将采集与音频信息相关联的过程与识别与所述音频信息对应的文字信息的过程分开,降低了内存占用,这对于某些内存较低的电子设备(例如,某些老年人专用电子设备等)十分有利。
根据一些实施例,所述识别与所述音频信息对应的文字信息可以包括:提取所述音频信息中的语音信息和非语音信息;以及识别与所述语音信息对应的文字信息。
根据一些实施例,由于音频信息中包括语音信息和非语音信息,因此在对音频信息进行识别的过程中可以先提取音频信息中的语音信息,并且仅对语音信息进行识别,以获得与语音信息对应的文字信息。根据一些实施例,可以利用语音的端点检测法确定音频信息中每段语音信息的起点和终点。端点检测法例如可以是双门限端点检测算法。语音信息例如可以包括特定对象说话声音。非语音信息例如可以包括非人类说话声音的背景环境声音,也可以包括非特定对象说话声音以外的其他背景人声。
根据一些实施例,识别与所述语音信息对应的文字信息可以包括:对所述语音信息进行预处理;从预处理的语音信息中提取音频特征;基于提取的音频特征与参考模式库进行模式匹配以获取识别结果。
根据一些实施例,对所述语音信息的预处理可以包括采样量化、分帧、加窗中的一种或多种。根据一些示例,采集的语音信息通常是连续量,由许多具有不同振动幅度和振动频率的正弦波共同组成。对语音信息采样量化意味着将模拟信号表示的语音信息转化为数字信号表示的语音信息,以供电子设备处理。根据一些示例,语音信息一般为非稳态信号,但是在较短的时间段内的语音信息可以认为是稳态信号。因此,可以对语音信息进行分帧处理,以确保经分帧后的语音信息近似是稳态信号。根据一些示例,可以通过窗函数来实现分帧处理,例如可以使用矩形窗函数、汉明窗函数、海宁窗函数等。
根据一些实施例,音频特征例如可以包括时域特征、频域特征、倒谱域特征(例如,梅尔倒谱系数(MFCC)、线性预测倒谱系数(LPCC)等)以及其他适于作为音频特征的特征。
根据一些实施例,例如可以利用动态时间规整(DTW)模型、矢量量化(VQ)模型、隐马尔科夫模型(HMM)、人工神经网络(ANN)模型等各种模型来训练并得到参考模式库。
以这样的方式,可以在识别与所述语音信息对应的文字信息的过程中排除非语音信息的干扰,可以进一步提高识别与音频信息对应的文字信息的精度。
根据一些实施例,可以在采集与电子设备相关联的音频信息的过程中确定与音频信息对应的文字信息的语种。
根据另一些实施例,也可以在在采集与电子设备相关联的音频信息完成之后再确定与音频信息对应的文字信息的语种。
根据一些实施例,所述对与所述音频信息对应的文字信息进行分词还可以包括:确定所述文字信息的语种;以及基于所述语种,对所述文字信息进行分词。根据一些实施例,所述确定所述文字信息的语种可以包括:基于针对语种的用户输入来确定所述文字信息的语种、自动识别所述文字信息的语种、或其组合。通过确定文字信息的语种,可以进一步提高识别与音频信息对应的文字信息的精度。
根据一些实施例,可以基于针对语种的用户输入来确定文字信息的语种。例如,用户在与朋友通话之前可以确定通话采用的语种(例如,中文、英文等)。这时,用户可以通过针对语种的用户输入通知其电子设备与将要进行识别的音频信息对应的文字信息的语种(例如,中文、英文、法文、德文等)。以这样的方式,电子设备无需花费一定时间先确定语种,可以提高识别的精度(尤其是识别开始的一段时间)。
根据一些实施例,电子设备可以基于机器学习算法自动识别所述文字信息的语种。对文字信息的语种的自动识别可以减少用户的操作,提升用户的使用体验。
根据一些实施方式,可以基于音频信息中的语音信息来自动识别所述文字信息的语种。根据一些示例,自动识别。例如,可以使用langid工具包来进行语种识别。
根据一些实施方式,可以自动识别基于对音频信息进行识别后获得的文字信息的语种。
根据一些实施例,可以利用音频信息中的语音信息或者经识别的文字信息的起始部分确定所述文字信息的语种。这样,可以以尽可能快的方式获得文字信息的语种,以占用内存尽可能小的方式辅助后续文字信息的识别。根据一些实施例,也可以实时识别并确定所述文字信息的语种。这样,在可能包括多语种的情景中,可以更好地确定语音信息在不同时间段中所对应的文字信息的语种。
以这样的方式,通过语种识别,可以更好地确定文字信息中包含的文字的语法构成、短语顺序等,使得对语音信息的识别更加准确。
在一些情况下,与音频信息对应的文字信息中包括的文字数量可能很大。
根据一些实施例,所述对与所述音频信息对应的文字信息进行分词可以包括:将所述文字信息的字数与字数阈值进行比较;以及如果所述文字信息的字数小于或等于所述字数阈值,则对所述文字信息中的全部文字信息进行分词,如果所述文字信息的字数大于所述字数阈值,则对所述文字信息中的一部分文字信息进行分词。根据一些实施方式,所述一部分文字信息的字数小于或等于所述字数阈值。根据一些实施方式,所述一部分文字信息的字数也可以大于所述字数阈值。
根据一些实施例,字数阈值可以由用户预先设置或者由系统默认设置。由系统默认设置的字数阈值可以与电子设备的用户界面的显示面积、电子设备的字体大小、用户偏好等相关联。根据一些示例,字数阈值可以是10个、20个、50个、100个等。
根据一些实施例,进行分词的所述一部分文字信息可以是系统默认设置的。例如,可以对从所述文字信息的起始处起的一部分文字信息进行分词。又例如,可以从所述文字信息的结尾处起的一部分文字信息进行分词。还例如,可以从所述文字信息的中间处的一部分文字信息进行分词。
根据一些实施例,进行分词的所述一部分文字信息也可以是基于用户输入确定的。根据一些实施方式,可以基于用户输入确定待分词区域。
以下将结合图4A描述根据本公开的示例性实施例的待分词区域。图4A是示出根据本公开的示例性实施例的在所述电子设备的用户界面上显示待分词区域的用户界面400A的示意图。
根据一些实施例,可以待分词区域401中显示与音频信息对应的文字信息。根据一些实施例,待分词区域401可以指与音频信息对应的文字信息所处的区域。在待分词区域401中,文字信息尚未被分词。如图4A所示,待分词区域401中的文字信息为“松下问童子,言师采药去。……具体也不知道在哪儿。”
针对待分词区域的用户输入可以包括针对待分词区域的点击输入、针对待分词区域的按压输入、针对待分词区域中的一些文字信息的滑动输入等。
根据一些实施例,可以根据不同类型的针对待分词区域的用户输入确定与所述待分词区域401相关联的一部分文字信息。例如,如果针对待分词区域的用户输入是针对待分词区域的点击输入402,则可以以所述针对待分词区域的点击输入的位置为基准点;以所述基准点为基准,前后各选取一定数量的文字(例如,50个);以及将被选取的文字(例如,100个)作为与所述待分词区域相关联的一部分文字信息。又例如,如果针对待分词区域的用户输入是针对待分词区域中的一些文字信息的滑动输入,则可以将所述针对待分词区域中的一些文字信息的滑动输入经过的文字作为与所述待分词区域相关联的一部分文字信息。当然,本公开不限于以上示例,还可以以各种方式确定所述文字信息中与所述待分词区域相关联的一部分文字信息。
根据一些示例,参照图4A和图4B,待分词区域401中的文字信息“松下问童子,言师采药去……诗人采用问题和回答相结合……具体也不知道在哪儿。”在这些示例中,由于待分词区域401中显示的文字信息大于字数阈值,因此可以选取一部分文字信息进行分词。如图4A所示,针对待分词区域401的用户输入402是点击输入,该用户输入402位于待分词区域401中的文字信息的起始处。然后,电子设备以该点击输入的位置为基准,开始对一部分文字信息进行分词。例如,如图4B所示,仅对待分词区域401中的一部分文字信息“松下问童子,言师采药去……诗人采用”进行分词以得到经分词的文字信息。而除了在待分词区域中的文字信息中的所述一部分文字信息之外的部分“问题和回答相结合……具体也不知道在哪儿。”则没有被分词。
以这样的方式,可以仅对一部分文字信息进行分词以得到与所述一部分文字信息对应的经分词的一部分文字信息,这减少了内存占用,同时方便用户的后续操作。
根据一些实施例,所述对与所述音频信息对应的文字信息进行分词可以包括:确定是否满足录音停止条件;以及响应于满足所述录音停止条件,对与所述音频信息对应的文字信息进行分词。
根据一些实施例,电子设备可以响应于确定满足录音停止条件才开始执行根据本公开的音频信息处理方法。
根据一些实施例,可以由电子设备确定是否满足录音停止条件。根据一些实施例,录音停止条件可以是用户针对电子设备的用户界面的录音停止输入。根据一些实施例,录音停止条件可以是用户针对电子设备的物理按键的录音停止输入。根据一些实施例,录音停止条件也可以与用户的输入无关。后文中将详细描述如何确定是否满足录音停止条件。
以这样的方式,通过设置录音停止条件,可以使电子设备和/或用户更好地确定采集与电子设备相关联的音频信息的时长,增强了根据本公开的所述音频信息处理方法可控性。
根据一些实施例,所述音频信息处理方法还可以包括:实时获取采集与所述电子设备相关联的音频信息的已经过时间;以及当实时获取的已经过时间大于或等于停止阈值时间时,确定满足所述录音停止条件。根据一些实施例,所述停止阈值时间可以由用户预先设置或者可以由所述电子设备的系统默认设置。根据一些示例,所述停止阈值时间可以为20秒、30秒、1分钟、2分钟等。
在一些情况下,所述停止阈值时间仅能够由开发者设置,用户无法更改。
根据一些实施例,所述音频信息处理方法还可以包括:确定是否满足预设条件;以及响应于确定满足预设条件,将所述停止阈值时间设置为无穷大。
根据一些实施例,预设条件可以包括与电子设备相关联的账户类型、电子设备的型号、电子设备中的用户身份识别卡(SIM)的类型等。
根据一些示例,预设条件可以为与电子设备相关联的账户类型。例如,当确定与电子设备相关联的账户类型为订阅用户时,可确定满足预设条件。
根据一些示例,预设条件可以为电子设备的型号。例如,当确定该电子设备为锤子手机时,可以确定满足预设条件。
根据一些示例,预设条件可以为电子设备中的用户身份识别(SIM)卡的类型。例如,当确定电子设备中的SIM是运营商A时,可以确定满足预设条件,
当然,本公开不限于此,本领域技术人员应当理解,可以以任何适于作为预设条件的其他预设条件来进行用于根据本公开的音频信息处理方法中的验证。
根据一些实施例,响应于确定满足预设条件,将所述停止阈值时间设置为无穷大。将所述停止阈值时间设置为无穷大例如可以将所述停止阈值时间设置为一个足够大的值。换言之,将停止阈值时间设置为在正常使用录音分词功能时几乎不可能达到的值。根据一些示例,例如可以将所述停止阈值时间的值设置为0x7fffffff。值0x7fffffff实际上是32-bit int下的最大值。如果以秒为单位,则值0x7fffffff约为68年多,可以近似认为是将所述停止阈值时间设置为无穷大。
根据一些实施例,当将音频信息和与音频信息相对应的文字信息存储在内存中时,可以实时确定电子设备的可用内存。根据一些实施例,可以为电子设备分配预留内存。所述预留内存可是为了确保电子设备的系统能够正常运行所需的内存。根据一些示例,如果实时确定的可用内存为预留内存,则将已经过时间确定为停止阈值时间。
根据另一些实施例,当将音频信息和与音频信息相对应的文字信息存储在缓存的存储区中时,也可以实时确定所述缓存的剩余空间。根据一些实施例,可以为电子设备的所述缓存分配预留空间。根据一些示例,如果实时确定的可用剩余空间为预留空间,则将已经过时间确定为停止阈值时间。
根据一些实施例,预留内存和/或预留空间可以根据电子设备的型号不同而不同。根据一些实施例,预留内存和/或预留空间还可以根据电子设备正在运行的应用程序相关联。然而,本领域技术人员应当理解,本公开不限于此,可以以任何方式确定预留内存和/或预留空间。通常情况下,预留内存和/或预留空间不为零。但在一些情况下,预留内存和/或预留空间也可以为零。
下面以预设条件为与电子设备相关联的账户类型为例进行详细描述。
根据一些实施例,所述音频信息处理方法还可以包括:验证与所述电子设备相关联的账户类型,其中所述账户类型包括订阅账户和非订阅账户;以及响应于验证所述账户类型是订阅账户,将所述停止阈值时间设置为无穷大。
根据一些实施例,当验证到与所述电子设备相关联的账户类型是订阅账户时,也可以通过不再将停止阈值时间作为判断是否满足录音停止条件的条件来等同于将所述停止阈值时间设置为无穷大。根据一些示例,例如可以直接将对实时获取的已经过时间的条件判断改为恒为真等。在这些示例中,也可以认为是将所述停止阈值时间设置为无穷大(即,不受停止阈值时间的约束)。
根据一些实施例,订阅账户可以包括收费账户或听障人士专享账户。
对于非订阅账户的电子设备,仅可以在停止阈值时间内试用音频分词功能。对于包括收费账户或听障人士专享账户的订阅账户的电子设备,可以在不受限制的时长内使用音频分词功能。以这样的方式,既能够有效保护音频分词功能的版权,又能够关爱特殊群体,体现社会公益性。
在一些情况下,用户希望自主确定录音停止的时间。
根据一些实施例,所述音频信息处理方法还可以包括:接收针对所述电子设备的用户界面的录音停止输入;以及响应于所述录音停止输入,确定满足所述录音停止条件。
以这样的方式,用户可以通过录音停止输入(例如,针对录音停止按钮的点击输入,针对用户界面(例如,用户界面300)的按压输入等)停止采集与电子设备相关联的音频信息,进一步提高了用户操作的自由度,提升了用户体验。
以下将结合图4B描述根据本公开的示例性实施例的经分词的文字信息的显示。图4B是示出根据本公开的示例性实施例的在所述电子设备的用户界面上显示经分词的文字信息的用户界面400B的示意图。
根据一些实施例并参照图4B,所述经分词的文字信息包括至少一个分词单元431,并且所述在所述电子设备的用户界面上显示经分词的文字信息可以包括:显示至少一个分词视图控件432;以及使所述至少一个分词单元431中的每个分词单元分别与所述至少一个分词视图控件432中的一个分词视图控件对应。
根据一些实施例,分词单元是指文字信息被分词后的文字信息单元,其是经分词的文字信息的一部分。所有的分词单元构成经分词的文字信息。例如,如图4B所示,文字信息可以是“松下问童子,言师采药去。”。经分词的文字信息可以包括“松下”、“问童子”、“,”、“言师”、“采药去”、以及“。”。经分词的文字信息所包括的至少一个分词单元中的分词单元可以是“松下”,或者可以是“问童子”,或者可以是“,”,以此类推。换言之,虽然基于一定的分词规则对文字信息进行分词以得到经分词的文字信息,但所述经分词的文字信息仍然包括文字信息中的全部内容,而每个分词单元仅包括文字信息中的一部分内容。
根据一些实施例,可以在每个分词视图控件中显示一个分词单元。根据一些实施例,可以使在所述分词视图控件中显示的分词单元跟随所述分词视图控件的移动而移动。
以这样的方式,可以通过分词视图控件的移动来控制与分词视图控件对应的每个分词单元移动,以供用户在后续对分词单元的多个操作类型的操作中使用,更加方便,提升了用户体验。
以下将结合图5描述对经分词的文字信息的编辑操作。图5是示出根据本公开的示例性实施例的对经分词的文字信息进行编辑的用户界面500的示意图。
根据一些实施例,所述音频信息处理方法还可以包括:接收针对所述至少一个分词视图控件中的一个或多个第一分词视图控件的操作指令,其中所述操作指令包含多个操作类型中的一个操作类型,所述多个操作类型包括删除、翻译、保存、剪切、复制、粘贴、分享和搜索中的至少一个;突出显示所述一个或多个第一分词视图控件和/或与所述一个或多个第一分词视图控件对应的一个或多个第一分词单元;以及基于所述操作指令中包含的操作类型,对所述一个或多个第一分词视图控件和/或与所述一个或多个第一分词视图控件对应的一个或多个第一分词单元的进行操作。
根据一些实施例,针对所述至少一个分词视图控件中的一个或多个第一分词视图控件的操作指令可以包括先选中一个或多个第一分词视图控件,再选择要对被选中的一个或多个第一分词视图控件发出的操作指令。例如,如图5所示,针对所述至少一个分词视图控件中的一个或多个第一分词视图控件的操作指令可以包括先选中与多个第一分词单元501(即,“松”、“下”、“问”、“童”、“子”、“,”、“言”、“师”、“采”、“药”、“去”、“。”、“只”、“《”、“寻”、“隐”、“者”、“不”、“遇”、“》”、以及“。”)对应的多个第一分词视图控件502。然后,可以对被选中的多个第一分词视图控件502发出各种操作指令。例如,如图5所示,用户可以点击删除按钮511、翻译按钮512、保存按钮513、剪切按钮514、复制按钮515、粘贴按钮516、分享按钮517、搜索按钮(未示出)等来对被选中的多个第一分词视图控件502发出各种操作指令。根据一些示例并参照图5,与操作指令相关联的按钮中的一部分按钮511-516可以显示在所选中的多个第一分词视图控件502中的最上一行的上方。根据一些实施例并参照图5,响应于对关闭选中按钮518的输入,可以不再选中所述被选中的多个第一分词视图控件502,并且不再突出显示所述被选中的多个第一分词视图控件502。当然,本公开不限于此,还可以采用除了按钮方式之外的其他方式发出各种操作指令。
根据另一些实施例,针对所述至少一个分词视图控件中的一个或多个第一分词视图控件的操作指令也可以包括先选择要对一个或多个第一分词视图控件发出的操作指令,再选中一个或多个第一分词视图控件。
根据一些实施例,突出显示所述一个或多个第一分词视图控件和/或与所述一个或多个第一分词视图控件对应的一个或多个第一分词单元可以包括:放大显示一个或多个第一分词视图控件和/或与所述一个或多个第一分词视图控件、改变一个或多个第一分词视图控件和/或与所述一个或多个第一分词视图控件的显示颜色等。
根据一些实施例,基于所述操作指令中包含的操作类型,可以对所述一个或多个第一分词视图控件和与所述一个或多个第一分词视图控件对应的一个或多个第一分词单元同时进行操作。根据一些示例,在所述操作指令是删除、剪切、复制、粘贴等操作类型的情况下,这些操作指令可以同时作用于第一分词视图控件和与所述第一分词视图控件对应的第一分词单元。例如,删除操作可以同时删除第一分词视图控件和在所述第一分词视图控件中显示的第一分词单元。
根据另一些实施例,基于所述操作指令中包含的操作类型,可以仅对与所述一个或多个第一分词视图控件对应的一个或多个第一分词单元进行操作。根据一些示例,在所述操作指令是翻译、保存、分享、搜索等操作类型的情况下,这些操作指令可以仅作用于与所述第一分词视图控件对应的第一分词单元。例如,翻译操作可以仅翻译第一分词单元,而与第一分词视图控件无关。
根据一些实施例,除了上述操作类型之外,还可以在经分词的文字信息的基础上新增文字信息。根据一些实施例,响应于针对如图5所示的键入按钮551的输入,可以在电子设备的用户界面上显示软键盘或手写板等,以供用户输入新增的文字信息。
在一些情况下,例如在使用手指与电子设备的用户界面进行交互的情况下,由于手指与用户界面接触时具有一定接触面积,因此有时可能会同时与多个分词视图控件接触。在这些情况下,可以使用光标控件来代替传统的光标,以更好地定位至少一个分词视图控件。
根据一些实施例并参照图5,所述音频信息处理方法还可以包括:当显示至少一个分词视图控件时,在所述电子设备的用户界面上显示光标控件530,其中,所述光标控件530包括第一端531和第二端533,所述光标控件的第一端531用于定位至少一个分词视图控件,并且所述光标控件的第二端533适于被用户选中。
根据一些实施例,光标控件的第一端531可以呈细长的形状,以更好地将光标控件530定位在期望的两个分词视图控件之间。根据一些实施例,光标控件的第二端532可以具有一定的显示面积,以适于被用户选中。所述光标控件的第二端532可以呈任何适于选中的形状,例如如图5所示的圆形。
以这样的方式,用户可以通过拖动容易被选中的光标控件的第二端进行移动来使整个光标控件移动,从而方便地通过光标控件的第一端来进行精确地定位。这大大提升了用户在对经分词的文字信息进行编辑时的操作体验。
根据一些实施例并参照图4B和图5,所述音频信息处理方法还可以包括:响应于确定满足录音停止条件,在所述电子设备的用户界面上显示所述音频信息的缩略图421、521。根据一些实施例,所述音频信息处理方法还可以包括:提取所述音频信息中的语音信息和非语音信息;以及响应于确定满足录音停止条件,在所述电子设备的用户界面上显示所述语音信息的缩略图422和所述非语音信息的缩略图423、523中的至少一个。
根据一些实施例,响应于针对所述音频信息的缩略图421、521的播放输入,可以播放所采集的与电子设备相关联的音频信息。根据一些实施例,响应于针对所述语音信息的缩略图422和所述非语音信息的缩略图423、523中的任意一个的播放输入,可以播放所述语音信息或所述非语音信息。
以这样的方式,在对音频信息的文字信息进行分词之后,不仅可以对经分词的文字信息进行操作,也可以对音频信息进行操作。
根据一些实施例,所述音频信息处理方法还可以包括:响应于针对在所述电子设备的用户界面上显示的保存按钮的保存输入,保存所述文字信息、所述音频信息、所述语音信息和/或所述非语音信息。
根据一些实施例,可以以各种方式保存所述文字信息、所述音频信息、所述语音信息和/或所述非语音信息。
根据一些实施例并参照图4B,所述保存所述文字信息、所述音频信息、所述语音信息和/或所述非语音信息可以包括:响应于针对在所述电子设备的用户界面上显示的保存按钮441的保存输入,在便签应用程序中新建便签页并将所述文字信息保存到新建的便签页中,并且将所述音频信息、所述语音信息和/或所述非语音信息保存到音频文件夹中。
保存文字信息的方法通常包括:选中要保存的文字信息;复制所述要保存的文字信息;打开记事本等文本类应用程序;将所述要保存的文字信息粘贴到文本类应用程序中;以及点击文本类应用程序中的保存按钮。而根据本公开的示例性实施例的保存方式,响应于针对保存按钮441的保存输入,可以自动在便签应用程序中新建便签页并将文字信息直接保存在所述便签页中。以这样的方式,与通常的保存文字信息的方法相比,大大减少了用户在保存文字信息时所需的操作,提升了用户体验。此外,可以一键保存不同类型的信息(例如,文字信息和音频信息),进一步减少用户的操作,进一步提升用户体验。
根据一些实施例,还可以基于用户的选择来确定所述文字信息、所述音频信息、所述语音信息和/或所述非语音信息的保存方式。
根据一些实施例,所述保存所述文字信息、所述音频信息、所述语音信息和/或所述非语音信息可以包括:基于针对保存目标的选择,将所述文字信息、所述音频信息、所述语音信息和/或所述非语音信息保存到目标文件夹或目标应用程序中。
根据一些实施例,针对保存目标的选择可以是预先进行的选择。例如,用户预先设置为将文字信息保存到作为目标应用程序的文字类应用程序中,将音频信息、所述语音信息和/或所述非语音信息保存到作为目标文件夹的音频文件夹中。
根据一些实施例,针对保存目标的选择也可以是在所述保存输入之后进行的选择。例如,响应于所述针对在所述电子设备的用户界面上显示的保存按钮的保存输入,可以在用户界面上显示各种目标文件夹和/或目标应用程序的选项。针对保存目标的选择例如可以使针对这些选项的点击输入等。根据一些示例,可以根据用户选择,将所述文字信息、所述音频信息、所述语音信息和/或所述非语音信息都保存到聊天类应用程序中。
以这样的方式,可以提供多种保存方式。用户可以根据需要自由选择将所述文字信息、所述音频信息、所述语音信息和/或所述非语音信息保存到哪个或哪些目标文件夹或目标应用程序中,而无需在默认的保存方式之后再更换保存位置,减少了操作。
以下将结合图4B和图5描述用户界面400B、500上的其他按钮及其对应的功能。根据一些实施例,响应于针对图4B和图5中所示的全选按钮442、542的输入(例如,点击输入、按压输入、滑动输入等),可以选中所有分词单元。根据一些实施例,响应于针对如图4B所示的编辑按钮443的输入(例如,点击输入、按压输入、滑动输入等),可以从如图4B所示的用户界面400B切换到图5所示的用户界面500;同时,响应于针对如图5所示的返回按钮543的输入,可以从图5所示的用户界面500切换到如图4B所示的用户界面400B。根据一些实施例,当经分词的文字信息较多并且在当前用户界面500中无法全部显示时,响应于针对如图5中所示的向前一页按钮552的输入或向后一页按钮553的输入(例如,点击输入、按压输入、滑动输入等),可以向前翻页或向后翻页。根据一些实施例,响应于针对如图4B和图5中所示的关闭按钮444、544的输入(例如,点击输入、按压输入、滑动输入等),可以关闭退出音频分词功能。
以上已经结合附图描述了根据本公开的音频信息处理的示例性方法。下面将结合附图对本公开的音频信息处理的示例性装置、以及电子设备的示例性实施例进行进一步描述。
本公开的第二方面可以包括一种音频信息处理方法,包括:确定是否满足录音开始条件;响应于确定满足所述录音开始条件,采集与电子设备相关联的音频信息;在采集与所述电子设备相关联的音频信息期间,实时识别与所述音频信息对应的文字信息;以及在所述电子设备的用户界面上显示经实时识别的文字信息。
根据一些实施例,录音开始条件与结合本公开的第一方面中已经详细描述录音开始条件相同或类似,在此不再赘述。
以这样的方式,在采集与电子设备相关联的音频信息期间,用户可以通过电子设备的用户界面实时看到与所述音频信息对应的文字信息。例如,在电子设备的外部环境比较嘈杂并且难以听清音频信息的内容的情况下,用户可以通过实时显示的文字信息了解音频信息的内容。
本公开的第三方面可以包括一种音频信息处理装置。图6是示出根据本公开的示例性实施例的音频信息处理装置的结构框图。如图6所示,所述音频信息处理装置600可以包括:确定单元601,被配置为确定是否满足录音开始条件;采集单元602,被配置为响应于确定满足所述录音开始条件,采集与所述电子设备相关联的音频信息;分词单元603,被配置为对与所述音频信息对应的文字信息进行分词,以获得经分词的文字信息;以及显示单元604,被配置为在所述电子设备的用户界面上显示经分词的文字信息。
根据一些实施例,所述音频信息处理装置600还可以包括被配置为执行前述任何方法的其它步骤的单元。
以上,对本公开的音频信息处理的示例性装置进行了简要说明。需要注意的是,本公开的示例性音频信息处理装置的各单元或各特征的具体实施方式可参见本公开前述示例性音频信息处理方法中的相应特征的具体实施方式,因而不再赘述。另外,描述本公开的示例性音频信息处理装置所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
另外,本公开的示例性音频信息处理装置的各单元的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
本公开的第四方面可以包括一种电子设备,该电子设备可以包括处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行前述任何方法。
本公开的第五方面可以包括一种存储程序的存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行前述任何方法。
下面参考图7,其示出了适于用来实现本公开实施例的电子设备700(例如本公开中的电子设备)的结构示意图。图7示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置706加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
通常,以下装置可以连接至I/O接口705:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707;包括例如磁带、硬盘等的存储装置706;以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置709从网络上被下载和安装,或者从存储装置706被安装,或者从ROM 702被安装。在该计算机程序被处理装置701执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的存储介质可以是计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:确定是否满足录音开始条件;响应于确定满足所述录音开始条件,采集与电子设备相关联的音频信息;对与所述音频信息对应的文字信息进行分词,以获得经分词的文字信息;以及在所述电子设备的用户界面上显示经分词的文字信息。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:确定是否满足录音开始条件;响应于确定满足所述录音开始条件,采集与电子设备相关联的音频信息;对与所述音频信息对应的文字信息进行分词,以获得经分词的文字信息;以及在所述电子设备的用户界面上显示经分词的文字信息。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (34)

1.一种音频信息处理方法,包括:
接收针对电子设备的用户界面的音频处理指示输入,电子设备的用户界面包括文字可提取区域和文字不可提取区域,其中,针对所述文字可提取区域的文字提取输入与所述音频处理指示输入存在相互干扰;
确定是否满足录音开始条件,包括:
获取所述音频处理指示输入在所述电子设备的用户界面上的位置;
确定所述电子设备的用户界面在所述位置处是否属于文字可提取区域;以及
响应于确定所述电子设备的用户界面在所述位置处不属于文字可提取区域,
确定满足所述录音开始条件;
响应于确定满足所述录音开始条件,采集与电子设备相关联的音频信息,包括:
创建底层硬件通路;以及
响应于确定满足所述录音开始条件,通过所述底层硬件通路实时采集作为所述电子设备内部的音频信息的来自底层硬件的音频信息;
在采集与所述电子设备相关联的音频信息期间,实时识别与所述音频信息对应的文字信息;
在所述电子设备的用户界面上实时显示经实时识别的文字信息;
对与所述音频信息对应的文字信息进行分词,以获得经分词的文字信息;以及
在所述电子设备的用户界面上显示经分词的文字信息。
2.根据权利要求1所述的音频信息处理方法,其中,所述确定是否满足所述录音开始条件包括:响应于接收针对所述电子设备的用户界面的音频处理指示输入,确定满足所述录音开始条件。
3.根据权利要求1所述的音频信息处理方法,还包括:
接收针对所述电子设备的用户界面的音频处理指示输入,
其中,所述确定是否满足录音开始条件包括:
确定所述电子设备的用户界面在接收到所述音频处理指示输入时显示的是否为应用程序窗口;
响应于确定所述电子设备的用户界面在接收到所述音频处理指示输入时显示的是应用程序窗口,确定所述应用程序窗口是否允许被录音;以及
响应于确定所述应用程序窗口允许被录音,确定满足所述录音开始条件。
4.根据权利要求3所述的音频信息处理方法,其中,所述确定是否满足录音开始条件还包括:
响应于确定所述电子设备的用户界面在接收到所述音频处理指示输入时显示的不是应用程序窗口,确定满足所述录音开始条件。
5.根据权利要求2至4中任一项所述的音频信息处理方法,其中,所述接收针对所述电子设备的用户界面的音频处理指示输入包括:
接收针对所述电子设备的用户界面的功能菜单呼出输入;
响应于接收到所述功能菜单呼出输入,在所述电子设备的用户界面上显示功能选择菜单,其中,所述功能选择菜单包括音频分词功能选项;以及
接收针对所述音频分词功能选项的选择。
6.根据权利要求1所述的音频信息处理方法,其中,所述接收针对所述电子设备的用户界面的音频处理指示输入包括:
接收针对所述电子设备的用户界面的功能菜单呼出输入;
响应于接收到所述功能菜单呼出输入,在所述电子设备的用户界面上显示功能选择菜单,其中,所述功能选择菜单包括音频分词功能选项;以及
接收针对所述音频分词功能选项的输入。
7.根据权利要求6所述的音频信息处理方法,其中,所述获取所述音频处理指示输入在所述电子设备的用户界面上的位置包括:
获取所述功能菜单呼出输入在所述电子设备的用户界面上的位置。
8.根据权利要求1所述的音频信息处理方法,其中,所述采集与所述电子设备相关联的音频信息包括:
实时采集所述电子设备内部的音频信息;和/或
实时采集来自所述电子设备外部的音频信息。
9.根据权利要求8所述的音频信息处理方法,还包括:
创建硬件抽象层,其中所述硬件抽象层适于配置所述底层硬件通路以提供来自底层硬件的音频信息的接口;以及
创建虚拟音频信息输入设备,其中所述虚拟音频信息输入设备被配置为在确定满足所述录音开始条件时调用所述硬件抽象层,以通过由所述硬件抽象层配置以提供来自底层硬件的音频信息的接口的所述底层硬件通路实时采集来自底层硬件的音频信息。
10.根据权利要求1所述的音频信息处理方法,还包括:
在采集与所述电子设备相关联的音频信息期间,在电子设备的用户界面上实时显示与所述音频信息相关联的波形图。
11.根据权利要求10所述的音频信息处理方法,还包括:
接收针对与所述音频信息相关联的波形图的第一切换输入;
响应于所述第一切换输入,在电子设备的用户界面上显示经实时识别的文字信息;并且
接收针对经实时识别的文字信息的第二切换输入;
响应于所述第二切换输入,在电子设备的用户界面上显示与所述音频信息相关联的波形图。
12.根据权利要求1所述的音频信息处理方法,其中,所述对与所述音频信息对应的文字信息进行分词包括:
识别与所述音频信息对应的文字信息;以及
对所识别的文字信息进行分词。
13.根据权利要求12所述的音频信息处理方法,其中,所述识别与所述音频信息对应的文字信息包括:
提取所述音频信息中的语音信息和非语音信息;以及
识别与所述语音信息对应的文字信息。
14.根据权利要求1所述的音频信息处理方法,其中,所述对与所述音频信息对应的文字信息进行分词包括:
基于以下各项中的至少一项对所述文字信息进行分词:以单个字或字母为单元进行分词、以词语为单元进行分词、以短语为单元进行分词、以分句为单元进行分词、以句子为单元进行分词、以标点为单元进行分词、或其组合。
15.根据权利要求14所述的音频信息处理方法,其中,所述对与所述音频信息对应的文字信息进行分词还包括:
确定所述文字信息的语种;以及
基于所述语种,对所述文字信息进行分词。
16.根据权利要求15所述的音频信息处理方法,其中,所述确定所述文字信息的语种包括:基于针对语种的用户输入来确定所述文字信息的语种、自动识别所述文字信息的语种、或其组合。
17.根据权利要求1所述的音频信息处理方法,其中,所述对与所述音频信息对应的文字信息进行分词包括:
将所述文字信息的字数与字数阈值进行比较;以及
如果所述文字信息的字数小于或等于所述字数阈值,则对所述文字信息中的全部文字信息进行分词,
如果所述文字信息的字数大于所述字数阈值,则对所述文字信息中的一部分文字信息进行分词。
18.根据权利要求1所述的音频信息处理方法,其中,所述对与所述音频信息对应的文字信息进行分词包括:
确定是否满足录音停止条件;以及
响应于满足所述录音停止条件,对与所述音频信息对应的文字信息进行分词。
19.根据权利要求18所述的音频信息处理方法,还包括:
实时获取采集与所述电子设备相关联的音频信息的已经过时间;以及
当实时获取的已经过时间大于或等于停止阈值时间时,确定满足所述录音停止条件。
20.根据权利要求19所述的音频信息处理方法,其中,所述停止阈值时间由用户预先设置或者由所述电子设备的系统默认设置。
21.根据权利要求19所述的音频信息处理方法,还包括:
确定是否满足预设条件;以及
响应于确定满足预设条件,将所述停止阈值时间设置为无穷大。
22.根据权利要求1所述的音频信息处理方法,还包括:
接收针对所述电子设备的用户界面的录音停止输入;以及
响应于所述录音停止输入,确定满足所述录音停止条件。
23.根据权利要求1所述的音频信息处理方法,其中,所述经分词的文字信息包括至少一个分词单元,并且所述在所述电子设备的用户界面上显示经分词的文字信息包括:
显示至少一个分词视图控件;以及
使所述至少一个分词单元中的每个分词单元分别与所述至少一个分词视图控件中的一个分词视图控件对应。
24.根据权利要求23所述的音频信息处理方法,还包括:
接收针对所述至少一个分词视图控件中的一个或多个第一分词视图控件的操作指令,其中所述操作指令包含多个操作类型中的一个操作类型,所述多个操作类型包括删除、翻译、保存、剪切、复制、粘贴、分享和搜索中的至少一个;
突出显示所述一个或多个第一分词视图控件和/或与所述一个或多个第一分词视图控件对应的一个或多个第一分词单元;以及
基于所述操作指令中包含的操作类型,对所述一个或多个第一分词视图控件和/或与所述一个或多个第一分词视图控件对应的一个或多个第一分词单元的进行操作。
25.根据权利要求23所述的音频信息处理方法,还包括:
当显示至少一个分词视图控件时,在所述电子设备的用户界面上显示光标控件,
其中,所述光标控件包括第一端和第二端,所述光标控件的第一端用于定位至少一个分词视图控件,并且所述光标控件的第二端适于被用户选中。
26.根据权利要求1所述的音频信息处理方法,还包括:
响应于确定满足录音停止条件,在所述电子设备的用户界面上显示所述音频信息的缩略图。
27.根据权利要求26所述的音频信息处理方法,还包括:
提取所述音频信息中的语音信息和非语音信息;以及
响应于确定满足录音停止条件,在所述电子设备的用户界面上显示所述语音信息的缩略图和所述非语音信息的缩略图中的至少一个。
28.根据权利要求27所述的音频信息处理方法,还包括:
响应于针对在所述电子设备的用户界面上显示的保存按钮的保存输入,保存所述文字信息、所述音频信息、所述语音信息和/或所述非语音信息。
29.根据权利要求28所述的音频信息处理方法,其中,所述保存所述文字信息、所述音频信息、所述语音信息和/或所述非语音信息包括:
在便签应用程序中新建便签页并将所述文字信息保存到新建的便签页中,并且将所述音频信息、所述语音信息和/或所述非语音信息保存到音频文件夹中;或者
基于针对保存目标的选择,将所述文字信息、所述音频信息、所述语音信息和/或所述非语音信息保存到目标文件夹或目标应用程序中。
30.根据权利要求1所述的音频信息处理方法,其中,所述电子设备的用户界面是触敏用户界面。
31.一种音频信息处理装置,包括:
确定单元,被配置为接收针对电子设备的用户界面的音频处理指示输入,确定是否满足录音开始条件,其中,电子设备的用户界面包括文字可提取区域和文字不可提取区域,其中,针对所述文字可提取区域的文字提取输入与所述音频处理指示输入存在相互干扰,所述确定是否满足录音开始条件包括获取所述音频处理指示输入在所述电子设备的用户界面上的位置;确定所述电子设备的用户界面在所述位置处是否属于文字可提取区域;以及响应于确定所述电子设备的用户界面在所述位置处不属于文字可提取区域,确定满足所述录音开始条件;
采集单元,被配置为响应于确定满足所述录音开始条件,采集与所述电子设备相关联的音频信息,包括创建底层硬件通路;以及响应于确定满足所述录音开始条件,通过所述底层硬件通路实时采集作为所述电子设备内部的音频信息的来自底层硬件的音频信息;
识别单元,被配置为在采集与所述电子设备相关联的音频信息期间,实时识别与所述音频信息对应的文字信息;
分词单元,被配置为对与所述音频信息对应的文字信息进行分词,以获得经分词的文字信息;以及
显示单元,被配置为在所述电子设备的用户界面上显示经分词的文字信息,还被配置为在所述电子设备的用户界面上实时显示经实时识别的文字信息。
32.根据权利要求31所述的装置,还包括:
被配置为执行根据权利要求1-30中任一项所述的音频信息处理方法的步骤的单元。
33.一种电子设备,包括:
处理器;以及
存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-30中任一项所述的音频信息处理方法。
34.一种存储程序的存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据权利要求1-30中任一项所述的音频信息处理方法。
CN201911053962.2A 2019-10-31 2019-10-31 音频信息处理方法、装置、电子设备及存储介质 Active CN110767234B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911053962.2A CN110767234B (zh) 2019-10-31 2019-10-31 音频信息处理方法、装置、电子设备及存储介质
PCT/CN2020/109353 WO2021082637A1 (zh) 2019-10-31 2020-08-14 音频信息处理方法、装置、电子设备及存储介质
US17/638,693 US20220406311A1 (en) 2019-10-31 2020-08-14 Audio information processing method, apparatus, electronic device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911053962.2A CN110767234B (zh) 2019-10-31 2019-10-31 音频信息处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110767234A CN110767234A (zh) 2020-02-07
CN110767234B true CN110767234B (zh) 2022-12-23

Family

ID=69335635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911053962.2A Active CN110767234B (zh) 2019-10-31 2019-10-31 音频信息处理方法、装置、电子设备及存储介质

Country Status (3)

Country Link
US (1) US20220406311A1 (zh)
CN (1) CN110767234B (zh)
WO (1) WO2021082637A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110767234B (zh) * 2019-10-31 2022-12-23 抖音视界有限公司 音频信息处理方法、装置、电子设备及存储介质
CN111381688B (zh) * 2020-03-11 2024-02-27 北京小米移动软件有限公司 实时转录的方法及装置、存储介质
CN111696550B (zh) * 2020-06-04 2024-02-02 北京搜狗科技发展有限公司 语音处理方法和装置、用于语音处理的装置
JP2024501798A (ja) * 2020-12-16 2024-01-16 グーグル エルエルシー 運転者の注意散漫を最少にするためのナビゲーションセッションの共有
CN114115792A (zh) * 2021-11-25 2022-03-01 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、服务器及电子设备

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU7991900A (en) * 1999-10-04 2001-05-10 Joseph E. Pechter Method for producing a viable speech rendition of text
KR100988397B1 (ko) * 2008-06-09 2010-10-19 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
CN102379121A (zh) * 2009-04-01 2012-03-14 惠普开发有限公司 屏幕捕获
WO2014030258A1 (ja) * 2012-08-24 2014-02-27 株式会社日立製作所 形態素解析装置、テキスト分析方法、及びそのプログラム
CN104035684A (zh) * 2013-03-06 2014-09-10 腾讯科技(深圳)有限公司 一种应用于移动终端上的动态截屏方法及系统
CN104536717A (zh) * 2014-12-15 2015-04-22 深圳市金立通信设备有限公司 一种语音输入方法
US9666208B1 (en) * 2015-12-14 2017-05-30 Adobe Systems Incorporated Hybrid audio representations for editing audio content
TWI582756B (zh) * 2016-07-29 2017-05-11 A method of switching input mode, a mobile communication device, and a computer readable medium
US20180098031A1 (en) * 2016-10-04 2018-04-05 Virtual Legal Proceedings, Inc. Video conferencing computer systems
CN107301866B (zh) * 2017-06-23 2021-01-05 北京百度网讯科技有限公司 信息输入方法
CN107704447A (zh) * 2017-08-23 2018-02-16 海信集团有限公司 一种中文分词方法、中文分词装置和终端
CN107526634A (zh) * 2017-08-31 2017-12-29 四川长虹电器股份有限公司 安卓设备上同时支持多个录音设备的方法
CN107608957A (zh) * 2017-09-06 2018-01-19 百度在线网络技术(北京)有限公司 基于语音信息的文本修改方法、装置及其设备
US11140450B2 (en) * 2017-11-28 2021-10-05 Rovi Guides, Inc. Methods and systems for recommending content in context of a conversation
CN108052578B (zh) * 2017-12-08 2020-07-28 上海星佑网络科技有限公司 用于信息处理的方法和装置
CN109215660A (zh) * 2018-07-09 2019-01-15 维沃移动通信有限公司 语音识别后文本纠错方法及移动终端
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN110767234B (zh) * 2019-10-31 2022-12-23 抖音视界有限公司 音频信息处理方法、装置、电子设备及存储介质
KR20220137427A (ko) * 2021-04-02 2022-10-12 삼성에스디아이 주식회사 전고체 전지용 복합양극활물질, 그 제조방법, 전고체 전지용 양극층 및 이를 포함하는 전고체 전지

Also Published As

Publication number Publication date
US20220406311A1 (en) 2022-12-22
CN110767234A (zh) 2020-02-07
WO2021082637A1 (zh) 2021-05-06

Similar Documents

Publication Publication Date Title
CN110767234B (zh) 音频信息处理方法、装置、电子设备及存储介质
CN106024009B (zh) 音频处理方法及装置
US20240121479A1 (en) Multimedia processing method, apparatus, device, and medium
US10162489B2 (en) Multimedia segment analysis in a mobile terminal and control method thereof
CN108847214B (zh) 语音处理方法、客户端、装置、终端、服务器和存储介质
CN106575361A (zh) 提供视觉声像的方法和实现该方法的电子设备
CN110267113B (zh) 视频文件加工方法、系统、介质和电子设备
EP4202727A1 (en) Meeting minutes interaction method and apparatus, device, and medium
CN110602516A (zh) 基于视频直播的信息交互方法、装置及电子设备
Mirzaei et al. Audio-visual speech recognition techniques in augmented reality environments
CN108109636B (zh) 基于文本的语音播放方法、装置、计算机设备和存储介质
CN113010698B (zh) 多媒体的交互方法、信息交互方法、装置、设备及介质
CN109033423A (zh) 同传字幕显示方法及装置、智能会议方法、装置及系统
CN109977426A (zh) 一种翻译模型的训练方法、装置以及机器可读介质
CN113901239A (zh) 信息展示方法、装置、设备及存储介质
CN112667118A (zh) 显示历史聊天消息的方法、设备以及计算机可读介质
CN112214271A (zh) 页面引导方法、装置和电子设备
CN108073572A (zh) 信息处理方法及其装置、同声翻译系统
CN113886612A (zh) 一种多媒体浏览方法、装置、设备及介质
JP7057455B2 (ja) プログラム、情報処理方法、端末
CN113591495A (zh) 语音翻译方法、装置及存储介质
CN117959703A (zh) 交互方法、装置、计算机可读存储介质和计算机程序产品
US10915778B2 (en) User interface framework for multi-selection and operation of non-consecutive segmented information
CN115981769A (zh) 页面显示方法、装置、设备、计算机可读存储介质及产品
CN113132789B (zh) 一种多媒体的交互方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant after: Douyin Vision Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant before: Tiktok vision (Beijing) Co.,Ltd.

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant after: Tiktok vision (Beijing) Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant before: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant